SpiderLQF-CSDN博客

原创 Python基础知识笔记1

2019-07-18 1、拆分含有多种分隔符的字符串方法一：使用str.split()方法（单一分隔符时，split（）更快） In [2]: s.split('-') Out[2]: ['li', 'quan', 'feng'] 方法二：使用re.split()方法，一次性拆分字符串（推荐） In [16]: s = 'lqf&super!man' In [17]: r...

2019-07-20 00:05:16 309

原创城市名接龙爬取全国城市各医院基本信息（名字、地址、联系电话、医院等级、重点科室、经营方式等）

整个程序分两部分：实现城市名接龙(兼容谐音)和爬取城市医院信息。城市接龙部分：城市接龙需要兼容谐音，那么就必须用到xpinyin模块中的Pinyin类方法，负责将中文转换为拼音；而城市接龙的实现便是通过将初次输入的城市名的最后一个字的拼音跟所有已转换成拼音的城市名头一个字做对比，拼音相等（谐音）即是我们要的接龙城市，代码实现部分如下： #自动寻找下一个接龙城市 def get_Next...

2018-09-03 19:35:48 3590 1

原创多进程爬取淘宝商品信息

多进程爬取淘宝商品信息爬取思路、策略：一开始试着通过抓包模拟请求来爬取淘宝，但是淘宝返回的数据并不全是正确的，即通过返回真和假数据来达到反爬的目的，上网查资料也没多少是涉及到直接抓包请求爬取淘宝的，就这样自己瞎琢磨了一阵子后还是没有弄明白如何破解淘宝的反爬，于是决定采用selenium无头浏览器先实现爬取淘宝商品信息的目的，往后会继续来填这个坑。采用selenium无头浏览器，完全模拟浏览...

2018-08-28 16:20:27 1159

转载 curses函数说明

转载自：https://blog.csdn.net/zhangleiyigeren/article/details/6940802 一.全局变量　　WINDDW*　curscr：当前屏幕　　WINDOW*　stdscr：标准屏幕　　int　　　LINES：终端上的行数　　int　　　COLS：终端上的列数　　bool 　　TRUE：真标志，1 　　bool 　　FALSE：...

2018-08-24 09:55:04 1196

转载自：https://blog.csdn.net/clj198606061111/article/details/9090407 RSA公钥加密算法是1977年由Ron Rivest、Adi Shamirh和LenAdleman在（美国麻省理工学院）开发的。RSA取名来自开发他们三者的名字。RSA是目前最有影响力的公钥加密算法，它能够抵抗到目前为止已知的所有密码攻击，已被ISO推荐为公钥数据加...

2018-08-16 11:11:25 3420

转载各大型网站反爬虫策略

转载自：http://litten.me/2017/07/09/prevent-spiders/ 1. 前言对于一张网页，我们往往希望它是结构良好，内容清晰的，这样搜索引擎才能准确地认知它。而反过来，又有一些情景，我们不希望内容能被轻易获取，比方说电商网站的交易额，教育网站的题目等。因为这些内容，往往是一个产品的生命线，必须做到有效地保护。这就是爬虫与反爬虫这一话题的由来。 2. 常...

2018-08-06 17:34:06 14822 2

原创多线程京东抓包爬取

多线程京东抓包爬取考虑到上次利用splash动态渲染爬取京东商品信息效率有限，此次是对京东网站进行逆向分析爬取，利用requests模拟浏览器请求爬取商品信息，并加上多线程爬取，爬取效率得到了大大提高。爬取商品的数据包含：商品名，商品ID，作者，价格（折后价、折前价和电子版价格（若有）），书籍排名，评...

2018-08-01 17:10:28 4369

原创网站模拟登录总结

目录网站模拟登录总结一、环境二、简介三、模拟登录网站 1、拉勾网模拟登录 2、CSDN模拟登录 3、微博模拟登录网站模拟登录总结一、环境 window7系统 python3语...

2018-07-18 15:49:28 19582 2

原创 IP代理池的获取、维护和池中有效IP的持续使用

此篇文章可以看作是对知乎分布式爬取中的IP代理设置的扩展，记录下IP代理池的获取、维护、和池中有效IP的持续使用。这里还得感谢IP代理池的贡献者，我们可以直接在上面下载，按照说明配置好环境，启动后获取的IP（raw_proxy）和验证后的IP（useful_proxy）都会存到Redis内存中（默认），所以记得启动前开启redis-server。下面介绍IP代理池在我的知乎分布式爬...

2018-07-06 12:10:33 3368

原创爬虫实战之全站爬取拉勾网职位信息

全站爬取拉勾网职位信息一、环境 window7 scrapy MySQL 二、简介 scrapy的全站爬取方式crawlspider跟其通用爬取方式spider实现上有一定的区别，两者都有各自的优势，选择用哪种方式取决于你对数据的需求和网站形式。数据维度：职位链接、链接MD5压缩、岗位、最低工资、最高工资、工作城市、最低工作经验、最高工作经验、学历要求、职位类型、发...

2018-07-01 11:32:48 4384 1

原创爬虫实战之分布式爬取知乎问答数据

分布式爬取知乎一、环境 window7 scrapy pycharm redis other PC MySQL 二、简介之所以选择爬取知乎，一是很多人都在爬，那么一定有它爬取价值的地方；二呢分析后才发现，知乎是一个模拟登录、信息解析清洗、反反爬等较为经典的练习素材；我们在这次爬取中将会涉及到IP代理、随机更换UserAgent、scrapy-redis分布式。数据维度...

2018-06-30 17:42:29 8435 1

原创 scrapy定向爬取jobbole文章

爬取jobbole文章一、环境 window7 scrapy框架 pycharm MySQL数据库二、简介既然是第一个爬虫，那么很多爬虫技巧也都是初次使用，有待深入了解；爬虫基于scrapy框架，使用了框架中的scrapy.Request负责向目标服务器发送相应请求，解析数据时使用了scrapy的ItemLoader类来统一解析，而并不是原来的直接...

2018-06-29 11:51:59 741

原创使用ocr识别验证码遇到的FileNotFoundError: [WinError 2] The system cannot find the file specified 问题

from PIL import Image import pytesseract img = Image.open(r'E:\evns\article_spider\Lib\site-packages\pytesseract\test.PNG') img = img.convert('L') pytesseract.image_to_string(img)首先安装tesseract-ocr，安装好...

2018-05-14 12:10:42 4263

Centos7安装Oracle11g_x64相关依赖包.zip

包含了安装过程中无法在系统中直接下载但需要的依赖包，compat-libstdc++-33-3.2.3-61.i386.rpm libaio-0.3.105-2.i386.rpm libaio-devel-0.3.105-2.i386.rpm libgcc-3.4.6-3.1.i386.rpm libstdc++-3.4.6-11.i386.rpm pdksh-5.2.14-37.el5_8.1.i386.rpm unixODBC-2.2.11-7.1.i386.rpm unixODBC-devel-2.2.11-7.1.i386.rpm

2021-05-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

sinat_40557813的博客