爬虫
文章平均质量分 63
活动的笑脸
大家来关注我啊
展开
-
scrapy框架爬取小说
首先创建相关项目文件,打开cmd输入以下命令:scrapy startproject 项目名称接着切换到目录文件:cd 项目名称定义要爬取的网站:scrapy genspider 爬虫名称 起始url网站(域名)过程如下:C:\Users\Administrator\Desktop\scrapy>scrapy startproject xiaoshuo_textNew Scrapy project 'xiaoshuo_text', using template directo原创 2022-02-20 15:36:29 · 1716 阅读 · 4 评论 -
python进行爬虫的注意事项
用python进行爬虫难免会遇到网站的反爬手段,因此需要将自己的爬虫进行多重伪装,废话不多说了,直接上干货。首先导入相应的模块:from fake_useragent import UserAgentimport randomimport requestsPython3进行防反爬的第一步----设置随机的UserAgent:ua = UserAgent()# print(ua.ra...原创 2019-10-17 09:51:07 · 3111 阅读 · 1 评论 -
python3爬虫系列(1)——爬取相亲网站
用python3进行网络爬虫,这次爬取的网站为http://www.lovewzly.com/jiaoyou.html相亲网站,废话不多说,直接上代码:首先导入相应的模块:import requestsimport os接着编写相应的分函数:# 设置年龄def set_age(): age = int(input("请输入对方的期望年龄:")) #强制字符串转整型 ...原创 2019-10-16 23:57:05 · 1050 阅读 · 0 评论 -
python3爬取代理IP
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...原创 2019-06-30 23:22:41 · 233 阅读 · 0 评论 -
python3爬虫设置随机的UserAgent
用python3进行网络爬虫工作不可避免面临被系统检测到的风险,为此在使用python程序工作前需要将自身伪装成正常的浏览器对网站进行访问,其中最基础的就是UserAgent的设置,例如:import requests# 正常的请求头格式header = { 'User-Agent': 'Mozilla/5.0 (X11; OpenBSD i386) AppleWebKit/537.36 (...原创 2019-09-15 22:00:31 · 628 阅读 · 0 评论