爬虫
文章平均质量分 92
王文友
这个作者很懒,什么都没留下…
展开
-
python16
#ip代理池构建的第一种方式import randomimport urllib.requestimport re#用户代理池用列表存储,这里构建3个用户代理(自己随便构建个数)ippools = [“”, #这里输入不同的 User-Agent 的值“”, #这里输入不同的 User-Agent 的值“”, #这里输入不同的 User-Agent 的值]#接下来构...原创 2019-10-15 19:46:24 · 164 阅读 · 0 评论 -
python15
import randomimport urllib.requestimport re#爬取首页下每页的内容 ------# compile(pat,re.S) 匹配多行数据headers = (“User-Agent”,“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)...原创 2019-10-15 19:45:49 · 142 阅读 · 0 评论 -
python14
import reimport urllib.requestimport urllib.parse#python新闻爬虫‘’’需求:将腾讯新闻首页所有新闻都爬到本地思路:1先爬首页2.通过正则获取所有新闻链接3.然后依次爬各新闻链接4.寻找有没有frame5.若有,抓取frame下对应网页内容6.若没有,直接抓取当前页面7.最后保存到本地‘’’‘’’. 除 换行符...原创 2019-10-15 19:44:57 · 155 阅读 · 0 评论 -
python13
import reimport urllib.requestimport urllib.parse#异常处理‘’’常见状态码及含义URLError与HTTPError爬虫如果不进行异常处理,下次运行时,又会重头开始‘’’‘’’状态码301 重定向到新的URL,永久性302 重定向到临时的URL,非永久性304 请求的资源未更新400 非法请求401 请求未经授权40...原创 2019-10-15 19:44:16 · 156 阅读 · 0 评论 -
python12
import reimport urllib.request#urllib.request.urlcleanup()超时设置for i in range(0,5):file=urllib.request.urlopen(“https://read.douban.com/provider/all”,timeout=1)try:print(len(file.read().decode(“...原创 2019-10-07 21:55:48 · 186 阅读 · 0 评论 -
python11
import reimport urllib.request‘’’urlretrieve(网址,本地文件存储地址) #直接下载网页到本地urlcleanup() #清除爬虫缓存info() #当前爬取 相应的情况getcode() ...原创 2019-10-07 15:21:53 · 97 阅读 · 0 评论 -
python10
import reimport urllib.request‘’’如何匹配.com或.cn网址,以及如何匹配电话号码[a-zA-Z]+ 协议至少出现一次[^\s]* 域名不可能出现空白符,不知道出现多少次[.com|.cn] 模式选择,要么出现 .com , 要么出现 .cn‘’’#匹配.com或.cn网址string = “百度首页”pat = ...原创 2019-10-07 14:54:44 · 166 阅读 · 0 评论 -
python9
import re#模式修正符‘’’I 匹配时忽略大小写M 多行匹配L 本地化识别匹配U unicodeS 让.匹配包括换行‘’’string = “Python”pat = “pyt”result = re.search(pat,string)print(result)‘’’None‘’’string = “Python”pat = “pyt”result =...原创 2019-10-07 13:22:53 · 118 阅读 · 0 评论 -
python8
import re#元字符‘’’. 除 换行符 以外的 任意字符^ 不在原子表中,代表匹配开始位置$ 匹配结束位置前面的原子 重复出现 0次、1次、多次? 前面的原子 重复出现 0次、1次前面的原子 重复出现 1次、多次{n} 前面这个原子恰好出现n次{n,} 前面这个原子至少出现n次{n,m} 前面这个原子至少出现n次,最多出现m次| 模式选择符或...原创 2019-10-06 21:58:34 · 103 阅读 · 0 评论 -
python7
import re #导入正则string = “taoyunjiaoyu”pat = “yun”result = re.search(pat,string)print(result)‘’’<re.Match object; span=(3, 6), match=‘yun’>match 就是正则提取的结果‘’’‘’’1.普通字符作为原子2.通用字符作为原子3...原创 2019-10-06 21:48:15 · 78 阅读 · 0 评论 -
python6
‘’’继承:把某一个或多个类(基类)的特征拿过来重载:在子类(派生类)里面对继承过来的特征重新定义父类:基类子类:派生类‘’’#单继承,多继承#某一个家庭:父亲、母亲、儿子、女儿、父亲可以说话、母亲可以写字,儿子继承父亲#女儿同时继承了父母,并且有新能力听东西,小儿子继承父亲,但优化了父亲的说话能力#父亲类class father(): #基类def speak(se...原创 2019-10-06 19:57:32 · 93 阅读 · 0 评论 -
python5
#面向对象‘’’创建一个类class 类名:类里面内容实例化一个对象a = cl()pass 不进行任何操作,只是占了一个位置‘’’class cl:passa = cl() # a就是对象,cl()就是方法‘’’构造函数 == 构造方法类在实例化的时候自动首先触发的方法(构造方法)构造函数的实际意义:初始化init(self,参数) init...原创 2019-10-06 19:35:20 · 177 阅读 · 0 评论 -
python4
#异常处理‘’’异常处理格式try:程序except Exception as 异常名称(自己随意起):异常处理部分 #这里处理的时候程序不会崩溃,后面的程序可以继续执行‘’’for i in range(0,10):print(i)if(i == 4): # 制作一个异常print(i)print(jki) #变量未定义#print(i) ...原创 2019-10-06 18:36:53 · 103 阅读 · 0 评论 -
python3
#乘法口诀for i in range(1,10):for j in range(1,i+1):print(str(i)+""+str(j)+"="+str(ij),end=" “) # end=”" :不换行输出 // end=" " : 每一次执行后以空格分隔print() # print() :代表换行print()print()print()#逆向输...原创 2019-10-06 18:06:33 · 85 阅读 · 0 评论 -
python2
输入一个任意类型的数#import randomfrom random import randintimport mathinput01 = input(“please input a data:”)a = int(input01) # 转换成整型print(a)input01 = input(“please input a data:”)b = input01 # 任意类型...原创 2019-09-13 18:43:09 · 76 阅读 · 0 评论 -
python1
变量的使用x = 3print(id(x)) # 测试内存地址print(type(x))y = xprint(id(y)) # 按值存储 y 和x 统一空间a = “hello world”print(type(a))print(isinstance(x, int))‘’‘数字的大小 ,可表示尽可能大的数’’’z = 9999999999999999999999999...原创 2019-09-13 18:41:47 · 99 阅读 · 0 评论 -
爬取每个用户及评论和随机抽取一名幸运观众
import requestsimport jsonimport pprint # 打印会有结构,print打印没有结构import randomr = requests.get(‘https://api.bilibili.com/x/v2/reply?jsonp=jsonp&pn=1&type=1&oid=xxxx&sort=2&_=xxxx’)...原创 2019-10-05 23:47:48 · 836 阅读 · 0 评论