2018年10月_最美的情郎

12月 11月 10月 09月 08月 07月 05月 04月 03月

原创爬虫验证码自学习知识保存

https://blog.csdn.net/j2IaYU7Y/article/details/79664196?utm_source=blogxgwz4https://blog.csdn.net/HuangZhang_123/article/details/72819061?utm_source=blogxgwz5 Python OCR识别图片验证码（二）https://blog.csdn...

2018-10-24 23:38:56 191

转载 Python爬虫四种验证码的解决思路

1.输入式验证码这种验证码主要是通过用户输入图片中的字母、数字、汉字等进行验证。如下图图1 图2 解决思路：这种是最简单的一种，只要识别出里面的内容，然后填入到输入框中即可。这种识别技术叫OCR，这里我们推荐使用Python的第三方库，tesserocr。对于没有什么背影影响的验证码如图2，直接通过这个库来识别就可以。但是对于有...

2018-10-23 15:16:55 2231

转载 10行代码爬取全国所有A股/港股/新三板上市公司信息

摘要：我们平常在浏览网页中会遇到一些表格型的数据信息，除了表格本身体现的内容以外，可能还想透过表格背后再挖掘些有意思或者有价值的信息。这时，可用python爬虫来实现。本文采用pandas库中的read_html方法来快速准确地抓取网页中的表格数据。由于本文中含有一些超链接，微信中无法直接打开，所以建议点击最左下角阅读原文阅读，体验更好，也可以复制链接到浏览器打开：https://www...

2018-10-23 00:09:46 1344

原创正则匹配含有逗号的文章总数

一，因为英文数字的表达方式，即超过三位数就会加个逗号。比如5,356。但是小于等于三位数时没有逗号，因此在写爬虫用正则解析文章数量时出现了这个问题，刚开始没有认真思考----现在记录一下。1，第一次遇到的：Showing 1–200 of 3,129 results正则表达式为：\d+,\d+ （\d表示匹...

2018-10-18 21:38:19 3641

原创将爬取列表页和单页的两个py文件合并，并且将python3代码转换成python2.7

更改的地方：合并两个test.py并且修改，更改gs_extractor.py，合并page-config.json和list-config.json为config.json并修改。简单思路：先将合并后test文件的python3代码调试成功，保留一份，然后再去修改python2.7代码。代码中遇到的问题以及参考的的知识记录：在python3中encoding=“utf-8"这个参数是...

2018-10-09 18:02:39 477

sonar.hpi插件低版本对应sonar4.0

该插件可以在jenkins下离线安装下载。对应于jenkins1.59版本，以及sonar4.0, 安装该插件，需要先安装maven-plugins2.7，链接：https://pan.baidu.com/s/1rQicsGFY97T5IMGl86U4Gg 提取码：k2pf 可直接下载

2019-03-29

统计学习方法

统计学习方法，入门人工智能的经典书籍，值得下载

2018-08-31

xpath-helper插件

chrome浏览器的xpath插件，xpath是用来解析网页内容的，而xpath-helper可以很好的编写xpath规则

2018-08-31

哈夫曼编码算法作业作业

这是算法实验课上哈夫曼的代码，大家可以参照一下，在自己理解理解

2018-04-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 爬虫验证码自学习知识保存