- 博客(5)
- 资源 (4)
- 收藏
- 关注
原创 爬虫验证码自学习知识保存
https://blog.csdn.net/j2IaYU7Y/article/details/79664196?utm_source=blogxgwz4https://blog.csdn.net/HuangZhang_123/article/details/72819061?utm_source=blogxgwz5 Python OCR识别图片验证码(二)https://blog.csdn...
2018-10-24 23:38:56 191
转载 Python爬虫四种验证码的解决思路
1.输入式验证码这种验证码主要是通过用户输入图片中的字母、数字、汉字等进行验证。如下图 图1 图2 解决思路:这种是最简单的一种,只要识别出里面的内容,然后填入到输入框中即可。这种识别技术叫OCR,这里我们推荐使用Python的第三方库,tesserocr。对于没有什么背影影响的验证码如图2,直接通过这个库来识别就可以。但是对于有...
2018-10-23 15:16:55 2231
转载 10行代码爬取全国所有A股/港股/新三板上市公司信息
摘要: 我们平常在浏览网页中会遇到一些表格型的数据信息,除了表格本身体现的内容以外,可能还想透过表格背后再挖掘些有意思或者有价值的信息。这时,可用python爬虫来实现。本文采用pandas库中的read_html方法来快速准确地抓取网页中的表格数据。由于本文中含有一些超链接,微信中无法直接打开,所以建议点击最左下角阅读原文阅读,体验更好,也可以复制链接到浏览器打开:https://www...
2018-10-23 00:09:46 1344
原创 正则匹配含有逗号的文章总数
一,因为英文数字的表达方式,即超过三位数就会加个逗号。比如5,356。但是小于等于三位数时没有逗号,因此在写爬虫用正则解析文章数量时出现了这个问题,刚开始没有认真思考----现在记录一下。1,第一次遇到的:Showing 1–200 of 3,129 results正则表达式为:\d+,\d+ (\d表示匹...
2018-10-18 21:38:19 3641
原创 将爬取列表页和单页的两个py文件合并,并且将python3代码转换成python2.7
更改的地方:合并两个test.py并且修改,更改gs_extractor.py,合并page-config.json和list-config.json为config.json并修改。简单思路:先将合并后test文件的python3代码调试成功,保留一份,然后再去修改python2.7代码。代码中遇到的问题以及参考的的知识记录:在python3中encoding=“utf-8"这个参数是...
2018-10-09 18:02:39 477
sonar.hpi插件低版本对应sonar4.0
2019-03-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人