DonQuixote_
码龄7年
关注
提问 私信
  • 博客:59,815
    59,815
    总访问量
  • 29
    原创
  • 1,375,834
    排名
  • 32
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2018-06-26
博客简介:

DonQuixote_的博客

查看详细资料
个人成就
  • 获得44次点赞
  • 内容获得6次评论
  • 获得196次收藏
创作历程
  • 29篇
    2018年
成就勋章
TA的专栏
  • 学以致用
    29篇
创作活动更多

仓颉编程语言体验有奖征文

仓颉编程语言官网已上线,提供版本下载、在线运行、文档体验等功能。为鼓励更多开发者探索仓颉编程语言,现诚邀各位开发者通过官网在线体验/下载使用,参与仓颉体验有奖征文活动。

368人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

selenium点击爬取豆瓣高分电影

  前言:当爬虫爬取多页时,大部分网站都是有下一页,或者标记有总页数,这让我们可以通过查找下一页的标签获取下一页的内容,又或者得到总页数,直接for循环url遍历所有页的内容,这两种都可以得到你想爬取多页的信息。  那么碰到动态加载的网页,或者点击出现,又或者滑动滚动条加载数据,这种网页的话就需要用其他的方法找数据了  1 解析JSON(好用,难度较大)  2使用selenium  实...
原创
发布博客 2018.11.19 ·
1094 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Django数据与网页相连

  前言:本文简单的将获取到的数据传递到html文件中并在文件上显示关于要获取的数据的接口:(自行选择一个就行)天气接口(location=%s)http://api.map.baidu.com/telematics/v3/weather?location=郑州市&output=json&ak=TueGDhCvwI6fOrQnLM0qmXxY9N0OkOiQ&ca...
原创
发布博客 2018.10.11 ·
819 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Django的配置创建及简单网页显示

1,创建Django项目1,安装Django pip install django  (1,2版本不一样,根据自身需求选择)2,创建项目1)使用终端命令行创建1,选择自己的项目路径   创建项目  django-admin startproject ***(项目名)2,切换到项目目录里面,创建app  python manage.py startapp ***(APP名),...
原创
发布博客 2018.10.11 ·
1029 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

scrapyd和gerapy部署分布式爬虫

关于gerapy框架知识可以通过了解一下崔庆才的博客来获取gerapy基于scrapyd等模块。。功能非常实用。。可以简化分布式爬虫的步骤并且非常直观的表现出来!1,前置配置1,下载gerapy包   pip install gerapy2,在非c盘新建文件夹  例如(spider_gerapy)3,在该文件夹下打开命令窗口 输入gerapy_init 初始化(出现了gerap...
原创
发布博客 2018.09.27 ·
542 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

关于scrapyd爬虫项目命令多种使用方法与请求

关于对scrapyd爬虫使用命令几种方式(cmd命令行,cmder工具,通过py文件请求网址得到请求)1,命令行关于命令行的操作无需多言,基本操作,大概如下 在爬虫项目文件下使用命令2,cmder首先下载cmder,并打开cmder.exe 此时cmder窗口连接的是cmd命令窗口,如果有命令可直接在该窗口上使用例如爬虫的启动和关闭 cmder窗口显示结...
原创
发布博客 2018.09.27 ·
814 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

scrapyd部署爬虫项目所需配置

    scrapyd部署爬虫项目1,安装scrapy包      pip install scrapyd在终端输入scrapyd  查看是否成功  所在端口为6800即为成功(建议不要将这个关掉,后面需要这个服务,关掉会连接不到主机) 在浏览器上输入127.0.0.1::6800  查看 点击jobs即为爬虫内容 当有爬虫文件执行时,jobs会显示爬虫的动态2...
原创
发布博客 2018.09.27 ·
365 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

基于scrapy_redis部署分布式爬虫

    基于scrapy_redis部署scrapy分布式爬虫1,首先安装模块,pip install scrapy_redis前提:使用框架(scrapy。。)做一个爬虫项目,在爬虫项目上修改添加2,1)在爬虫文件中(spider)导入from scrapy_redis.spiders import RedisSpider并让爬虫类继承redisspider2)将sta...
原创
发布博客 2018.09.26 ·
200 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Python虚拟环境的安装和配置

Python虚拟环境的安装和配置(windows)先在电脑上安装python2.7和python3.6,并记清楚安装路径,例如:统一安装在D盘 配置系统环境变量中的path路径,添加路径的版本即为默认使用版本3在命令行工具中输入pip install virtualenv 下载python虚拟环境 4在使用pip下载包时,经常会出现超时等情况,可以使用国内镜像提高下载速度,...
原创
发布博客 2018.09.18 ·
331 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

selenium验证码登陆

  关于selenium登陆某些页面或者系统都会遇到验证码获取验证码  并自动填写  就是使用selenium自动登陆的关键首先关于识别图片中的验证码有以下步骤1,获取验证码图片2,使用某些识别软件识别图中验证码的信息3,返回获取的验证码,并填写关于识别验证码文件,我选择云打码http://www.yundama.com/about.html登陆注册并花费1元购买使用权...
原创
发布博客 2018.09.06 ·
1416 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

python的mysql安装及内容

  今天我们来了解一下MySQL ,以及如何将scrapy框架爬取的数据放入到MySQL中1,首先,安装关于MySQL的包及相关配置在成功安装后,在终端输入你想要创建的项目 及该项目所需的域名scrapy genspider **(名字) **(域名)2,内容执行完上一步之后该文件夹里会有如下内容每一个文件都有它的内容作用!   关于爬虫文件介绍 3,两...
原创
发布博客 2018.08.27 ·
224 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

利用python发送邮件

   关于用python发送邮件,首先导入新的模块import smtplibfrom email.mime.text import MIMETextfrom email.utils import formataddr使用 pip install smtplib安装根据所选择的邮件类型选择要发送的邮件,例如qq,163.。。。# 1,清楚qq邮件服务器的主机地址#这里也可...
原创
发布博客 2018.08.27 ·
314 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

python编写贪吃蛇游戏

     关于编写游戏,是博主非常向往的东西(博主喜爱游戏),编写游戏得一步一步的走!今天我简单的编写一下非常经典的游戏贪吃蛇!!!!效果图:首先引入pygame模块pip install pygame关于编写贪吃蛇有如下几个步骤!依次思考1,设置背景大小,即游戏框大小,---像素(px)2,设置颜色,蛇的颜色,背景颜色,豆子的颜色#pygame游戏库,sys操控...
原创
发布博客 2018.08.16 ·
19498 阅读 ·
28 点赞 ·
3 评论 ·
123 收藏

python爬取电影top存入HTML文件

   当我们在进行爬虫的时候!会选择多种存储显示方式!这次我们简单的实例一下(需要一点HTML基础)关于HTML布局推荐网站https://v3.bootcss.com/     ,需要在同步文件夹里添加css文件,HTML引入py文件代码from lxml import etreeimport requestsimport jsonfrom urllib.request im...
原创
发布博客 2018.08.16 ·
679 阅读 ·
0 点赞 ·
2 评论 ·
3 收藏

python爬取豆瓣250

import csvimport reimport requests# 导入用于随机User-Agent值的第三方库from fake_useragent import UserAgentfrom lxml import etreeclass DBMovie(object): def __init__(self): self.base_url = 'ht...
原创
发布博客 2018.08.09 ·
380 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

pythonCSV模块

  在爬虫过后会取得很多信息! 将信息存起来方法还很多中!今天提一下CSV模块导入模块import csv这里先写个列表rows = [['zhangsan',20],['lisi',22],['wangwu',23],['zhaoliu',18]]1,写入信息with open('test.csv','w',newline='')as my_csv: writ...
原创
发布博客 2018.08.09 ·
1171 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

python创建表格及插入数据

关于表格需要导入新的模块   xlwt这里创建一个职业需求分布表为例子import xlwt#excel 2007版之前创建的表格。xls结尾的,需要用xlwt模块导入#Excel 2007版之后创建的表格是。xlsx结尾的,需要使用openpxyl模块倒入#创建工作博wb =xlwt.Workbook(encoding='utf-8')#括号内参数为表名ws = wb...
原创
发布博客 2018.07.31 ·
21795 阅读 ·
13 点赞 ·
1 评论 ·
87 收藏

python之处理需要登录信息的网站

当我们遇到了需要登录才能进去的网站时首先,我们必须声明以一个CookieJar对象,接下来,就需要利用HTTPCookieProcessor来构建一个Handler,最后利用build_opener()方法构建opener,执行oper()函数即可 1.以豆瓣举个例子from http.cookiejar import CookieJarfrom urllib.request im...
原创
发布博客 2018.07.31 ·
1035 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

python预加载爬取糗事百科帖子

'''按以下思路写出程序:1、面向对象(声明类,创建对象)2、类中有哪些函数? 初始化函数__init__() 需要初始化哪些数据? 第一次请求的页码1 一个空列表all_page_list,用于保存每一页数据的小列表 是否正在查看段子的变量enable(布尔型,正在查看为True,否则为False,初始值应为False) 开始爬取的函数s...
原创
发布博客 2018.07.31 ·
374 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

python基础之简单爬虫实例

前言:通过运用正则表达式,可以简单的写一写爬虫!马上来试一试11,爬去图片并保存下载。一段关于爬去美女图片的代码!(所以选择要爬的网址十分重要!看个人爱好了)from urllib.request import urlopen,Requestimport refrom urllib import requesturl = 'http://www.27270.com/ent/me...
原创
发布博客 2018.07.26 ·
359 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

python基础之随机设置访问头

前言:我们在爬虫中访问网站一般都需要请求头!今天我们编写一段随机请求的代码!可以说是方便以后使用!在编写代码前导入新的模块)from urllib import requestfrom urllib.request import build_opener,ProxyHandlerimport random1,编写多个请求头!根据不同的浏览器抽取的多个访问头#user_A...
原创
发布博客 2018.07.26 ·
1499 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏
加载更多