![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
凌晨四点的代码
渗透好难学
展开
-
爬虫程序之手刃豆瓣电影
1、浏览器打开豆瓣电影,F12network随便一个数据便可以看到网址和请求方式以及User-Agent(一般建议写上,有些网站设置的不可以爬,写上有百利而无一害)2、打开网页源代码,看着源代码写正则表达式3、初步运行查看效果4、运用csv模块方便查看分析数据(CSV (Comma Separated Values),即逗号分隔值(也称字符分隔值,因为分隔符可以不是逗号),是一种常用的文本格式,用以存储表格数据,包括数字或者字符。)最终代码:#拿到页面源代码 requests#通原创 2022-01-19 19:37:42 · 533 阅读 · 0 评论 -
爬虫之正则表达式
正则表达式:一种使用表达式的方式对字符串进行匹配的语法规则正则的语法:使用元字符进行排列组合用来匹配字符串元字符:具有固定含义的特殊字符可以在这里进行以下学习:正则表达式在线测试工具一、常用元字符:1、 . 匹配除换行符以外的任意字符2、\w 匹配字母或数字或下划线3、\s 匹配任意的空白符4、\d 匹配数字5、\n 匹配一个换行符6、\t 匹配一个制表符二、量词:控制前面的元字符出现的次数三、贪婪匹配和惰性匹配四:应用...原创 2022-01-17 22:37:24 · 462 阅读 · 0 评论 -
第三个爬虫小程序:豆瓣爬虫
1、进入豆瓣网页,F12抓包找到网址,请求方式,参数2代码import requestsurl = "https://movie.douban.com/j/chart/top_list"param = { "type": "24", "interval_id": "100:90", "action":"", "start": 0, "limit": 20,}hea = { "User-Agent":"Mozilla/5.0 (Windows原创 2022-01-15 23:05:29 · 274 阅读 · 0 评论 -
第二个爬虫小程序(post请求)
1、进入百度翻译,例如翻译dog会有图示几种翻译,F12我们打开图中右边的抓包工具,找到sug中的preview,便可以看到几种翻译2、在headers中可以看到访问地址,请求方式,以及最下面发送的参数(因为是post请求)3、代码import requestsurl = "https://fanyi.baidu.com/sug"s = input("请输入单词")dat = { "kw":s} #字典发送请求参数resp = requests.post(url, da原创 2022-01-15 13:48:56 · 111 阅读 · 0 评论 -
第二个爬虫小程序
本程序是在第一个小程序基础上的改进第一个小程序:在这里一、安装python的requests模块有两种方法,第一种网上介绍有很多,这里我用的是第二种,在pycharm中进行设置。步骤:-------点击右边一列的+-------点击左下角的安装包,然后重启即可二、第二个小程序:执行代码发现有错误,原因:网站检测到不是浏览器发出的请求, 所以需要伪装为浏览器步骤:找到User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) Appl原创 2022-01-13 19:24:53 · 55 阅读 · 0 评论 -
第一个爬虫程序
from urllib.request import urlopen #导包url = "http://www.baidu.com" #爬虫网址resp = urlopen(url) #打开网址并返回,也可以看作一个响应with open("baidu.html",mode="w",encoding="utf-8") as f: #将结果保存到文件 f.write(resp.read().decode("utf-8")) #读取网页的原创 2022-01-12 22:05:03 · 873 阅读 · 0 评论