
爬虫
文章平均质量分 58
最美的情郎
这个作者很懒,什么都没留下…
展开
-
js爬取
有时间看https://blog.csdn.net/qq523176585/article/details/78693900http://www.cnblogs.com/buzhizhitong/p/5697683.html——系列文章http://blog.sina.com.cn/s/blog_620987bf0102v2r8.html ---selenium键...原创 2018-09-29 15:03:51 · 453 阅读 · 0 评论 -
报错:http.client.IncompleteRead: IncompleteRead(180224 bytes read, 39396 more exp
在我爬取某网站时出现了该错误,但是只要重新运行一下程序还是请求成功。我搜索了一下百度,没有发现类似的答案,不过在stackoverflow有类似的疑问。等会后面有链接。可能出现这个问题的原因:这里执行urllib的read()函数时候,它会捕获任何不完整的读取异常。因此出现了报错。我们可以不让它捕获异常,因此当读取链接的时候我们可以用try / catch来抛出异常。我之前的一段代...原创 2018-09-29 17:59:01 · 14848 阅读 · 1 评论 -
正则匹配含有逗号的文章总数
一,因为英文数字的表达方式,即超过三位数就会加个逗号。比如5,356。但是小于等于三位数时没有逗号,因此在写爬虫用正则解析文章数量时出现了这个问题,刚开始没有认真思考----现在记录一下。1,第一次遇到的:Showing 1–200 of 3,129 results正则表达式为:\d+,\d+ (\d表示匹...原创 2018-10-18 21:38:19 · 3707 阅读 · 0 评论 -
判断爬取的文件数量是否完全
描述:最近爬取了某大学的论文网站上面的论文,但是发现网页上数量是227篇,我下载下来只有226篇,所以写了此代码想找出来少了那一篇。过程中,我先是判断了两个列表中是否存在不同的元素并输出,但是发现是完全相同的,接着我就想可能是网页中存在重复的元素,就判断了urll列表中是否自身包含重复元素。结果:最后发现该网站类别下有两篇相同的文章,我的爬虫代码里有判断去重,所以只下载了226篇。代码...原创 2018-09-30 17:43:14 · 389 阅读 · 0 评论 -
将爬取列表页和单页的两个py文件合并,并且将python3代码转换成python2.7
更改的地方:合并两个test.py并且修改,更改gs_extractor.py,合并page-config.json和list-config.json为config.json并修改。简单思路:先将合并后test文件的python3代码调试成功,保留一份,然后再去修改python2.7代码。代码中遇到的问题以及参考的的知识记录:在python3中encoding=“utf-8"这个参数是...原创 2018-10-09 18:02:39 · 506 阅读 · 0 评论 -
10行代码爬取全国所有A股/港股/新三板上市公司信息
摘要: 我们平常在浏览网页中会遇到一些表格型的数据信息,除了表格本身体现的内容以外,可能还想透过表格背后再挖掘些有意思或者有价值的信息。这时,可用python爬虫来实现。本文采用pandas库中的read_html方法来快速准确地抓取网页中的表格数据。由于本文中含有一些超链接,微信中无法直接打开,所以建议点击最左下角阅读原文阅读,体验更好,也可以复制链接到浏览器打开:https://www...转载 2018-10-23 00:09:46 · 1692 阅读 · 0 评论 -
Python爬虫四种验证码的解决思路
1.输入式验证码这种验证码主要是通过用户输入图片中的字母、数字、汉字等进行验证。如下图 图1 图2 解决思路:这种是最简单的一种,只要识别出里面的内容,然后填入到输入框中即可。这种识别技术叫OCR,这里我们推荐使用Python的第三方库,tesserocr。对于没有什么背影影响的验证码如图2,直接通过这个库来识别就可以。但是对于有...转载 2018-10-23 15:16:55 · 2263 阅读 · 0 评论 -
爬虫验证码自学习知识保存
https://blog.csdn.net/j2IaYU7Y/article/details/79664196?utm_source=blogxgwz4https://blog.csdn.net/HuangZhang_123/article/details/72819061?utm_source=blogxgwz5 Python OCR识别图片验证码(二)https://blog.csdn...原创 2018-10-24 23:38:56 · 213 阅读 · 0 评论