哈哈哈浩瀚海洋-CSDN博客

原创酷狗top500的爬虫

import requestsfrom bs4 import BeautifulSoupimport time #导入相应的库文件headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36' '(KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'#加入请求头}def get...

2020-12-16 21:22:46 189

原创 3.32 小猪短租的爬虫-

够造主网页的url获取函数，从主网页中获取到详情页的链接，从详情页中获取到标题，价格，评论等内容这里因为ip反爬，返回的是错误的网页，所以后续失败#这里进行了反爬，返回的网页进行了重定向，不是自己要爬的网址from bs4 import BeautifulSoupimport requestsimport time #导入相应的库文件url ="https://bj.xiaozhu.com/fangzi/1047842478.html" headers = { ..

2020-12-16 04:50:50 625 2

原创 16爬虫复习总结和进阶

总纲程序入门两步骤，请求和响应，服务器响应之后，传回数据，然后我们对返回的数据进行解析成bs格式，然后进行提取。最简单的请求格式如下：import requestsurl = ''response = requests.get(url)工具NetworkNetwork能够记录浏览器的所有请求最常用的是：ALL（查看全部），XHR（仅查看XHR），Doc（Document，第0个请求一般在这里）有时候也会看看：Img（仅查看图片）/Media（仅查看媒体文件）/Other（其他）最

2020-11-26 18:28:41 158

原创 2020-11-22

2020-11-22 23:02:50 102

原创 python如何一次性取出多个随机数4种方案

python如何一次性取出多个随机数4种方案(1)random.choice从序列bai中获取一个随机元du素。其函zhi数原型为：random.choice(sequence)。参数daosequence表示一个有序内类型。(2)在固定列容表中随机去多个数，random.sample的函数原型为：random.sample(sequence, k)，从指定序列中随机获取指定长度的片断。(3)随机取多个数，random.randint()的函数原型为：random.randint(a

2020-11-20 21:42:07 21104 1

原创 2020-11-13

知识管理笔记编码的发展和规范第0，计算机是有自己的工作区的，这个工作区被称为“内存”。数据在内存当中处理时，使用的格式是Unicode，统一标准。Python3当中，程序要处理我们输入的字符串，在此都是默认使用Unicode编码的。所以你可以中英文都输入第1，数据在硬盘上存储，或者是在网络上传输时，用的是UTF-8，因为省空间第2，一些中文的文件，中文的网站，还在使用GBK，和GB2312。第3，UTF-8和Unicode可以非常轻易地按照一个规则来互相转换（规则内容不在教学范围之内，而且几乎没

2020-11-13 11:32:21 92

转载 np.unique()函数的使用

https://www.cnblogs.com/jiaxinwei/p/11982192.html

2020-11-03 16:10:50 882

w896932的博客