爬虫
InventorMAO
这个作者很懒,什么都没留下…
展开
-
Python爬虫报错 cannot import name 'etree' from 'lxml'
我的原因是文件名是新建时的名字没有改改成first.py之后运行就没问题了原创 2020-01-29 15:21:39 · 1872 阅读 · 0 评论 -
Python爬虫编码报错 UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 29802: illega
刚开始入坑爬虫记一次编码报错:UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xbb’ in position 29802: illegal multibyte sequence再次之前建议大家看看这篇文章,讲的很详细,可能看完就解决了https://www.cnblogs.com/feng18/p/5646925.html...原创 2019-08-11 13:35:22 · 766 阅读 · 1 评论 -
Python爬虫报错 post表单提交处理
这次是post提交表单数据时报的错。之前get方式提交时只要在url后面拼接数据就行了。详细讲下post如何提交1.表单数据要写成字典的格式(其实get和post都要)2.用 urlencode(自己创建的表单字典)编码成字符串类型3.后面接 encode() 变成二进制格式也就是说提交要是二进制格式的!form_data = urllib.parse.urlencode(form_...原创 2019-08-11 16:08:59 · 593 阅读 · 0 评论 -
Python爬虫报错 初入爬虫要注意的点
废话不多说爬虫其实就是我们用代码去模仿浏览器发送请求,模仿的像不像就关系到我们爬虫的成功率提高这个成功率,有如下几个要点1.请求头没有模仿完整2.复制请求头时,有个**Accept-Encoding:gzip,deflate,**这是压缩类型有这个请求头的话,返回响应信息时就是压缩过的,后面就要有解压缩的步骤如果不会解压缩,那么干脆 请求头里把这句注释了,不需要压缩3.还有个 Conte...原创 2019-08-12 13:15:13 · 144 阅读 · 0 评论 -
Python爬虫过程 爬取www.yikexun.cn/励志句子过程(双请求)
学了大概4、5天的爬虫终于能爬点图片和文章了其实这两个差不多,后面一个稍微复杂一点这次来讲解一下怎么爬取标题的这个网址要做的是爬取这些文章,我们输入起始页码和结束页码,爬取页码之间的每篇文章我们现在看到的是标题,标题点进去之后才是我们要的文章,我们要把每篇文章写进一个html文件里需求就是这样,开工!首先我们看看url和页码有什么关系很明显就是后面的50_n.html就是决定页...原创 2019-08-17 15:02:39 · 596 阅读 · 0 评论