![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
cuiljiang
这个作者很懒,什么都没留下…
展开
-
斗鱼爬取用户信息和观看人数
爬取用户信息和观看人数摘要:此篇文章主要是对Ajax和json两个的练习。如何抓取异步加载的网站以及返回的json数据的提取。目标站点网站:https://www.douyu.com/g_LOL分析:打开网址,进行翻页的时候,发现头部的URL不变化,分析后台请求发现如下需要的数据都在如下图所示里面的response,切都是json格式。分析请求url,发现是采用get的方式请求,翻页...原创 2019-03-08 15:27:49 · 2156 阅读 · 1 评论 -
爬虫报错集
UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘•’ in position 41: illegal multibyte sequence拉勾网数据抓取中,抓取一段数据后出现如下报错:\u200eUnicodeEncodeError: ‘gbk’ codec can’t encode character ‘•’ in posit...原创 2019-04-26 16:40:01 · 316 阅读 · 0 评论 -
TypeError: 'FirefoxWebElement' object is not iterable
使用selenium驱动Firefox抓取网页的时候出现如下报错:TypeError: ‘FirefoxWebElement’ object is not iterable分析后发现在抓取的时候语法出现问题(我需要抓取的内容有多个,但是没有加"s",故报错。from selenium import webdriverdriver = webdriver.Firefox()drive...原创 2019-04-16 22:33:58 · 1936 阅读 · 0 评论 -
Centos安装scrapy
Centos安装scrapy一、安装scrapy# pip3 install scrapy二、在安装的时候出现如下报错:Could not find a version that satisfies the requirement Twisted>=13.1.0 (from scrapy) (from versions: )解决方法:去官网下载Twisted。http://...原创 2019-03-26 10:20:36 · 1172 阅读 · 0 评论 -
TypeError: write() argument must be str, not dict
在写入文件的时候,出现:TypeError: write() argument must be str, not dict,报错。可以使用json,格式写入import requestsimport reimport jsondef get_one_page(url): head = { 'User-Agent': 'Mozilla/5.0 (Windows N...原创 2019-03-19 10:19:59 · 20061 阅读 · 0 评论 -
AttributeError: 'list' object has no attribute 'rfind'
AttributeError: ‘list’ object has no attribute ‘rfind’使用python的os模块分割url的时候报错如标题,经检查发现img_url导出来的为列表,故需更改为如下:img_url = img.xpath(’@data-original’)[0]def parse_page_list(url): head = { ...原创 2019-03-11 13:16:09 · 7881 阅读 · 0 评论 -
初级爬虫工程师需要具备哪些知识
爬虫工程师需要具备哪些知识一、必备部分(初级)1、熟悉多线程编程、网络编程、HTTP协议相关2、开发过完整爬虫项目(最好有全站爬虫经验,这个下面会说到)3、反爬相关,cookie、ip池、验证码等等4、熟练使用分布式5、了解企业级爬虫和个人爬虫的差异(企业级爬虫,首先在数据量上跟我们平时学习的时候爬虫,不是同一数量级,数据量大很多。其次,企业级爬虫代码一般部署到专门的爬虫服务器上,采取...原创 2019-03-11 10:52:52 · 8500 阅读 · 0 评论 -
如何分析Ajax加载的内容
如何分析Ajax加载的内容前言:再58同城上抓取信息的时候,想要了解房源的人气值,在分析的时候遇到了困难分析请求后,没有发现需要的数据,待解决。。。...原创 2019-03-09 00:56:18 · 197 阅读 · 0 评论 -
Python发送请求,构造URL
构造浏览器请求url的方法(一)在分析完爬取数据之后,通过params方法构造请求。程序来源:崔庆才from pyquery import PyQuery as pqimport requestsdef getPage(page): url = 'https://m.weibo.cn/api/container/getIndex?'#在怎么来?分析Ajax请求 hd ...原创 2019-03-08 16:06:27 · 3548 阅读 · 0 评论 -
抓取文档的保存
抓取文档的保存一、保存在txt二、保存在docx参考:https://blog.csdn.net/qq_22521211/article/details/81742887,https://blog.csdn.net/u011932355/article/details/51769803from docx import Documentdoc = Document()doc.add...原创 2019-05-26 01:21:15 · 282 阅读 · 0 评论