![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 92
M:Yang
这个作者很懒,什么都没留下…
展开
-
基于scrapy爬取 boss内容(制定url模板+手动请求)
说明: 代码还有部分问题,目前不知道是什么原因(非封我IP导致)不能爬取多页内容,用方法可爬取其他网站多页信息爬取内容 python 专栏 岗位名称\薪资\公司名称\岗位描述知识点:UA伪装from fake_useragent import UserAgentUSER_AGENT = UserAgent().random目录结构:代码内容settings.py# ...原创 2019-08-03 15:16:22 · 261 阅读 · 0 评论 -
scrapy 框架操作\持久化存储\CrawlSpider的全站\分布式爬虫
scrapy框架操作创建工程scrapy startproject ProName创建一个爬虫文件(spiders)cd ProNamescrapy genspider spiderName www.xxx.com 分析爬虫文件:执行工程scrapy crawl spiderName需求:爬取糗事百科的段子内容和作者名称scrapy的持久化存储操作...原创 2019-08-07 09:18:48 · 255 阅读 · 0 评论 -
爬虫 requests与BeautifulSoup 模块/方法/参数 详解
import requests1. 方法requests.getrequests.post requests.put requests.delete ...requests.request(method='POST')2. 参数2.1 url2.2 headers2.3 cookies2.4 params 2.5 data,传请求体 requests...原创 2019-08-24 07:53:37 · 2181 阅读 · 0 评论 -
20个常用正则表达式
1 . 校验密码强度密码的强度必须是包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间。^(?=.*\\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$2. 校验中文字符串仅能是中文。^[\\\u4e00-\\\u9fa5]{0,}$3. 由数字、26个英文字母或下划线组成的字符串^\\w+$4. 校验E-Mail 地址同密码一样,下面是E-m...转载 2019-08-15 14:45:04 · 357 阅读 · 0 评论 -
Python 爬虫之图片懒加载
图片懒加载动态数据加载处理图片懒加载什么是图片懒加载?案例分析:抓取站长素材http://sc.chinaz.com/中的图片数据import requestsfrom lxml import etreeif __name__ == "__main__": url = 'http://sc.chinaz.com/tupian/gudianmeinvtupian.html'...转载 2019-08-22 10:56:03 · 913 阅读 · 0 评论