- 博客(7)
- 收藏
- 关注
原创 酷狗top500的爬虫
import requestsfrom bs4 import BeautifulSoupimport time #导入相应的库文件headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36' '(KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'#加入请求头}def get...
2020-12-16 21:22:46 189
原创 3.32 小猪短租的爬虫-
够造主网页的url获取函数,从主网页中获取到详情页的链接,从详情页中获取到标题,价格,评论等内容这里因为ip反爬,返回的是错误的网页,所以后续失败#这里进行了反爬,返回的网页进行了重定向,不是自己要爬的网址from bs4 import BeautifulSoupimport requestsimport time #导入相应的库文件url ="https://bj.xiaozhu.com/fangzi/1047842478.html" headers = { ..
2020-12-16 04:50:50 625 2
原创 16爬虫复习总结和进阶
总纲程序入门两步骤,请求和响应,服务器响应之后,传回数据,然后我们对返回的数据进行解析成bs格式,然后进行提取。最简单的请求格式如下:import requestsurl = ''response = requests.get(url)工具NetworkNetwork能够记录浏览器的所有请求最常用的是:ALL(查看全部),XHR(仅查看XHR),Doc(Document,第0个请求一般在这里)有时候也会看看:Img(仅查看图片)/Media(仅查看媒体文件)/Other(其他)最
2020-11-26 18:28:41 158
原创 python如何一次性取出多个随机数4种方案
python如何一次性取出多个随机数4种方案(1)random.choice从序列bai中获取一个随机元du素。其函zhi数原型为:random.choice(sequence)。参数daosequence表示一个有序内类型。(2)在固定列容表中随机去多个数,random.sample的函数原型为:random.sample(sequence, k),从指定序列中随机获取指定长度的片断。(3)随机取多个数,random.randint()的函数原型为:random.randint(a
2020-11-20 21:42:07 21104 1
原创 2020-11-13
知识管理笔记编码的发展和规范第0,计算机是有自己的工作区的,这个工作区被称为“内存”。数据在内存当中处理时,使用的格式是Unicode,统一标准。Python3当中,程序要处理我们输入的字符串,在此都是默认使用Unicode编码的。所以你可以中英文都输入第1,数据在硬盘上存储,或者是在网络上传输时,用的是UTF-8,因为省空间第2,一些中文的文件,中文的网站,还在使用GBK,和GB2312。第3,UTF-8和Unicode可以非常轻易地按照一个规则来互相转换(规则内容不在教学范围之内,而且几乎没
2020-11-13 11:32:21 92
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人