Python3爬虫
文章平均质量分 78
7voyage
这个作者很懒,什么都没留下…
展开
-
爬取豆瓣短评并输出词云
说明:爬取豆瓣电影,书籍,音乐(可选择)的所有短评信息,最终筛选出现频率最高的100词生成词云。但是我这个写的有点问题是,在挂代理ip测试时把豆瓣账号永久封禁,造成了电影短评无法全部获取,但书籍,和音乐无影响。代码详情见Github。详细介绍:代码结构: GetID_Douban.py:需要传入两个参数,一个是爬取对象名称,一个是对象类型(从movie,music,bo...原创 2018-07-26 09:38:48 · 808 阅读 · 0 评论 -
获取猫眼电影所有城市信息2
获取猫眼电影所有城市信息2感谢 https://blog.csdn.net/weixin_39416561 这位老哥的点拨,让我学会新方法来获取隐藏在js里的信息,学习学习。https://blog.csdn.net/qq_42776455/article/details/86489275 这篇是我自己用selenium暴力入手的,虽然简单。其实是一个比较笨的方法,可以参考下这个:https:...原创 2019-01-15 13:47:40 · 1951 阅读 · 3 评论 -
获取猫眼电影所有城市信息
获取猫眼电影所有城市信息做一个关于猫眼电影的爬虫要查看全国的分布,就必须第一步先拿到所有的影院所在城市信息。这个下拉列表不算太好解决,如果只是用requests的话,这里用selenium。代码解释主要用到的ActionChains,里面储存了一系列动作如:鼠标移动,鼠标点按,键盘操作,文本操作等。当ActionChains对象调用perform()时,这些操作会被先储存在一个队列中,队列...原创 2019-01-15 11:04:19 · 2570 阅读 · 4 评论 -
爬取汽车之家北京二手车信息
爬取汽车之家北京二手车信息经测试,该网站反爬机制较低,仅需要伪造请求头设置爬取速率,但是100页之后需要登录,登录之后再爬要慎重,一不小心就会永久封号。爬取的数据以各种类型存放,下面展示保存到mysql数据库中:原创 2018-12-07 12:06:44 · 1102 阅读 · 0 评论 -
Scrapy爬取前程无忧(51job)相关职位信息
Scrapy爬取前程无忧(51job)python职位信息开始是想做数据分析的,上网上找教程,看到相关博客我就跟着做,但是没数据就只能开始自己爬呗。顺便给51job的工作人员提提建议,我爬的时候Scrapy访问量开到128,relay仅有两秒,还以为会封ip。没想到只是改请求头就能万事大吉。。。这基本算是没有反扒机制吧。而且后面数据清洗的时候发现很多虚假的招聘广告,这个应该官方可以控制下吧。灵...原创 2018-12-13 21:57:03 · 2412 阅读 · 0 评论 -
Scrapy官推入门网站:Quotes to Scrape
Scrapy爬取网站:Quotes to Scrape写在前面这是一个scrapy官方提供的网站:http://quotes.toscrape.com/ ,网页很简单,麻雀虽小五脏俱全。就用这个网站详细演示下Scrapy基础使用方法。能力有限,水平一般,尽力做好哈。创建Scrapy项目创建项目:scrapy startproject quotes创建spider:这里出现报错,...原创 2018-10-17 19:14:40 · 3526 阅读 · 0 评论 -
Scrapy中间件应用
Scrapy中间件应用代理ip中间件这里使用的代理ip是阿布云:https://www.abuyun.com/ 绝无打广告,也没给我钱,纯粹用户体验,而且注册之后可以申请试用,试用时间可以向管理多次索要。编写自己的代理ip中间件middlewares.py,在账号密码加密时,Python2和Python3写法大不同,如果出现错误scheme b''可以查看在代理ip前是否添加协议http,...原创 2018-10-18 17:25:59 · 644 阅读 · 0 评论 -
自建免费的代理ip池
因为爬虫被禁ip这样的反扒真的很凶,但自从建了一个代理ip池以后,反反扒就可以跟的上节奏。当然你也可以上网上各种代理平台自己付费。这些平台当然很方便提供api调用,还不用自己验证。但你不想付费的话,可以看看下面这个国外的开源项目,我是从某网站的评论信息里找到的,下面操作均是基于该网站:https://raw.githubusercontent.com/fate0/proxylist/ma...原创 2018-10-14 15:48:42 · 24716 阅读 · 10 评论 -
初窥Scrapy,Scrapy今天算是正式入门了
Scrapy入门过程中遇到的难点:scrapy.Request(url)不执行,或者没反应,extract()和extract_first(),parse()里用yield将当前值给piplines,然后继续执行运行,scrapy爬虫数据保存到表格中(保存为.csv)解决间隔空行的问题,保存后的csv编码问题原创 2018-09-26 11:12:28 · 463 阅读 · 0 评论 -
Python拓展应用——Selenium代刷问卷星问卷,升级版。
第一个版本做出来的时候只是我自己用的demo,没想到会有这么多的同学都需要。所以就做了这个更方便,而且比上个版本来说最大的特点是,不同的电脑都可以执行。(上个版本因为要手动定位验证码的位置,不同电脑不一样,这才做的不用手动调试。)原创 2019-12-23 11:56:19 · 7201 阅读 · 56 评论 -
关于,Selenium页面指定元素截图的讨论。
一些自己的看法,希望能多多指正。不管用webdriver.Chrome还是webdriver.Firefox对页面进行截图时,都是只能截取当前页面,而不是整个页面(通常来说就是打开浏览器不管是滑轮也好还是滚动条到最低的一个长截图)。而用selenium定位某个元素的位置,是相对于整个页面的,所以这两个都不能对超过第一屏的元素进行准确定位。PhantomJS可以默认截屏就是整个网页上面两者可以...原创 2018-09-19 16:55:45 · 1329 阅读 · 0 评论 -
Python爬虫拓展应用——Selenium代刷问卷星问卷
selenium自动刷问卷星问卷也是看很多同学天天分享这些问卷调查的链接,刚好我在学selenium,就正好想起来做一个demo试试。 这是我们问卷调查的内容大家也可以试着作下:https://www.wjx.cn/m/27168497.aspx 选项选择以及判断页面是否需要填写验证码选项选择我直接用的随机数生成结果。 一般来说前面几次不是很频繁的话,网站是不会让你输入验证码的,...原创 2019-12-23 12:03:50 · 10733 阅读 · 35 评论 -
淘宝美食爬虫python3.6+selenium
用自动化测试工具selenium获取淘宝美食信息,另外附带延时加载的其中一个解决方法。原创 2018-08-18 14:37:31 · 303 阅读 · 0 评论 -
简单入门爬斗鱼图片
这是个比较简单的入门爬虫。基于python3。urllib,urllib2,python3中用urllib.request代替,使用方法基本一致。#python3import urllib.requestimport timeimport reimport randomdef getHtml(url): #添加User_agent,头信息,伪装成浏览器请求。 hea...原创 2018-04-18 13:35:00 · 215 阅读 · 0 评论 -
Python爬虫GET请求基本模型
GET请求URL附带查询参数分析百度贴吧url特点:分析url https://tieba.baidu.com/f是贴吧总的url,?后是get请求,kw=xxx,&后是页码信息 爬取百度贴吧对应内容信息:#python3import urllibimport urllib.requestimport urllib.responseimport url...原创 2018-04-18 17:04:00 · 315 阅读 · 0 评论 -
爬虫用户登陆
案例网站:https://www.yaozh.com/自行先注册一个账号登陆,从后台拿到cookie信息(需要先解析成字典)。用requests带着cookie请求页面:import requestsfrom fake_useragent import UserAgentua =UserAgent(verify_ssl=False)url = 'https://www.yaozh.co...原创 2019-03-04 21:38:18 · 581 阅读 · 0 评论