自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

干燥的空气,湿润的呼吸

Now is the time for action.

  • 博客(4)
  • 资源 (6)
  • 收藏
  • 关注

原创 知乎相关项目

回答导出电子书login.py# 要想获取知乎的数据,必须要登录,运行此文件必须手动配置好 chromedriver# 设置了知乎反爬虫暂停代码,建议命令行运行此项目,启动/激活项目输入 scrapy crawl zhihufrom selenium.webdriver import Chrome,ChromeOptionsimport time,json,requests,osfro...

2019-09-23 13:28:44 193

原创 Selenium 作为 Scrapy 的下载中间件

众所周知,大部分网页的数据都是能通过静态 html 分析快速得到的,但是遇到 ajax 动态数据和 js 加密的网页后就很难直接获取到想要的数据。而 Selenium 就能直接规避麻烦的部分,模拟浏览器直接获得数据。以我上篇文章抓取简书的数据为例,这里的专题就是通过 ajax 才能得到。而且标签名都加了密:下面是源码:from selenium.webdriver impor...

2019-09-05 08:00:16 427

原创 python 简书全站文章爬取 [mysql异步存储]

2019年9月4日测试可用settings.py中必要的设置# Obey robots.txt rulesROBOTSTXT_OBEY = FalseDEFAULT_REQUEST_HEADERS = { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Lan...

2019-09-04 15:36:39 187 3

原创 python 爬虫常用User-Agent 以及 随机请求头

官网跳转:http://www.useragentstring.com/pages/useragentstring.php"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36","Mozilla/5.0 (Windows N...

2019-09-03 03:50:22 802

文本检索器 【PYQT打包的,所以比较大】

遍历路径下的所有文件,找到需要的字符串 懒得下载可以去我的博客里看源码,老简单了

2021-05-25

Git-2.25.0-64-bit.zip

Git是一个开源的分布式版本控制系统,可以有效、高速地处理从很小到非常大的项目版本管理。 Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。2020.2.10测试可用

2020-02-10

模拟电影数据.xlsx

模拟电影数据,用来pandas学习。 列名:名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点 38737行数据

2019-11-23

GNS3-2.2.3-all-in-one-regular.exe

2019年11月19日下载可用。 GNS3是一款具有图形化界面可以运行在多平台(包括Windows, Linux, and MacOS等)的网络虚拟软件。Cisco网络设备管理员或是想要通过CCNA,CCNP,CCIE等Cisco认证考试的相关人士可以通过它来完成相关的实验模拟操作。同时它也可以用于虚拟体验Cisco网际操作系统IOS或者是检验将要在真实的路由器上部署实施的相关配置。

2019-11-19

mysql-connector-java-8.0.15.zip

pycharm的mysql驱动,这里下载的是8.0.15版本,在最新版本的pycharm[2019.2]的版本上可用。

2019-10-03

tesseract-ocr-w64-setup-v5.0.0.20190623.zip

Tesseract ,一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。 源码地址为: https://github.com/tesseract-ocr/tesseract ;

2019-08-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除