自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (4)
  • 收藏
  • 关注

原创 爬虫验证码自学习知识保存

https://blog.csdn.net/j2IaYU7Y/article/details/79664196?utm_source=blogxgwz4https://blog.csdn.net/HuangZhang_123/article/details/72819061?utm_source=blogxgwz5 Python OCR识别图片验证码(二)https://blog.csdn...

2018-10-24 23:38:56 191

转载 Python爬虫四种验证码的解决思路

1.输入式验证码这种验证码主要是通过用户输入图片中的字母、数字、汉字等进行验证。如下图 图1                           图2  解决思路:这种是最简单的一种,只要识别出里面的内容,然后填入到输入框中即可。这种识别技术叫OCR,这里我们推荐使用Python的第三方库,tesserocr。对于没有什么背影影响的验证码如图2,直接通过这个库来识别就可以。但是对于有...

2018-10-23 15:16:55 2231

转载 10行代码爬取全国所有A股/港股/新三板上市公司信息

摘要: 我们平常在浏览网页中会遇到一些表格型的数据信息,除了表格本身体现的内容以外,可能还想透过表格背后再挖掘些有意思或者有价值的信息。这时,可用python爬虫来实现。本文采用pandas库中的read_html方法来快速准确地抓取网页中的表格数据。由于本文中含有一些超链接,微信中无法直接打开,所以建议点击最左下角阅读原文阅读,体验更好,也可以复制链接到浏览器打开:https://www...

2018-10-23 00:09:46 1344

原创 正则匹配含有逗号的文章总数

一,因为英文数字的表达方式,即超过三位数就会加个逗号。比如5,356。但是小于等于三位数时没有逗号,因此在写爬虫用正则解析文章数量时出现了这个问题,刚开始没有认真思考----现在记录一下。1,第一次遇到的:Showing 1–200 of 3,129 results正则表达式为:\d+,\d+                                        (\d表示匹...

2018-10-18 21:38:19 3641

原创 将爬取列表页和单页的两个py文件合并,并且将python3代码转换成python2.7

更改的地方:合并两个test.py并且修改,更改gs_extractor.py,合并page-config.json和list-config.json为config.json并修改。简单思路:先将合并后test文件的python3代码调试成功,保留一份,然后再去修改python2.7代码。代码中遇到的问题以及参考的的知识记录:在python3中encoding=“utf-8"这个参数是...

2018-10-09 18:02:39 477

sonar.hpi插件低版本对应sonar4.0

该插件可以在jenkins下离线安装下载。对应于jenkins1.59版本,以及sonar4.0, 安装该插件,需要先安装maven-plugins2.7, 链接:https://pan.baidu.com/s/1rQicsGFY97T5IMGl86U4Gg 提取码:k2pf 可直接下载

2019-03-29

统计学习方法

统计学习方法,入门人工智能的经典书籍,值得下载

2018-08-31

xpath-helper插件

chrome浏览器的xpath插件,xpath是用来解析网页内容的,而xpath-helper可以很好的编写xpath规则

2018-08-31

哈夫曼编码算法作业作业

这是算法实验课上哈夫曼的代码,大家可以参照一下,在自己理解理解

2018-04-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除