python
木子拓哉
这个作者很懒,什么都没留下…
展开
-
站酷网图片爬取
先通过requests库 请求网址内容import requestsurl='https://www.zcool.com.cn/work/ZNTAyNTk5NzY=.html'#请求resp = requests.get(url)starus_code = resp.status_codetext = resp.text#print(text)#可通过打印检查获取结果再通过 lxml 里的 etree 解码from lxml import etreedom = etree.HTML原创 2021-01-19 12:57:21 · 1514 阅读 · 0 评论 -
哔哩哔哩番剧列表获取
网页接口请求在bilibili网连载动画里右键检查,查看network里 js 选项下,在进行翻页操作时的动态变量。如图:获取到url后就可以通过代码进行操作了(复制到 ?前,作为url)import requestsimport jsonurl = 'https://api.bilibili.com/x/web-interface/newlist'headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64原创 2021-01-19 12:56:57 · 794 阅读 · 0 评论 -
爬虫前的准备铺垫
安装第三方库pip install requests控制台 或者 pycharm 的 Terminal:local 进行如图换源这里推荐 阿里云步骤如图requests库的使用模拟请求,获取网页源代码import requestsresponse = requests.get(url='https://www.baidu.com')status_code = response.status_codeif status_code == 200: content = resp原创 2021-01-19 12:11:26 · 263 阅读 · 0 评论 -
本地文件读写
读取一个文本文件用 file 方法打开一个已有文本文件content 命名 以及打印,关闭 file 方法。file = open('./English.txt',mode='r',encoding='utf-8')content = file.read()print(content)file.close()原创 2021-01-19 12:11:15 · 172 阅读 · 0 评论 -
re 正则表达式
正则表达式:是一个特殊的字符序列,利用事先定义好的一些特定字符以及他们的组合组成一个“规则”,检查一个字符串是否与这种规则匹配来实现对字符的过滤或匹配。python中,re模块提供了正则表达式操作所需要的功能。字符串前加r,表明对字符串不进行转义re模块中findall()方法 以列表形式返回所有能匹配的子串。(如果没有则返回空列表)元字符:有些字符比较特殊,他们和自身并不匹配,而是表明应和一些特殊的东西匹配,或者会影响重复次数。这些特殊的字符,称为元字符。元字符:“ . ” 表示除原创 2020-10-27 10:26:02 · 117 阅读 · 0 评论