python爬虫
luckyGirlIT
这个作者很懒,什么都没留下…
展开
-
unicode和utf-8
ASCII(一个字节)美国人标准编码,8比特=1字节 ,一个数字表示一个字节,所以一个字节表示最大的数字是255GB2312针对中文编码Unicode 将所有语言统一到一套编码里,如果内容全是英文,存储空间比ASCII多,传输 也慢utf-8 可变长...原创 2020-10-14 12:43:11 · 213 阅读 · 0 评论 -
爬虫去重策略
爬虫去重策略:1.将访问过的url保存到数据库中2.将访问过的URL保存到set中,查询方便,但是耗费内存1亿条url*2byte(字节)*50个字符/1024(KB)/1024(MB)/1024=9G3.经过md5(128bit=16byte)等方法哈希后保存到set中(Scrapy就是用的类似这种方式)4.用bitmap方法,将访问过的url通过hash函数映射到某一位(容易将多个不同url放到同一个位置)5.bloomfilter方法对bitmap进行改进,多重hash函数降低冲突(分布式原创 2020-10-14 08:24:46 · 334 阅读 · 0 评论 -
常用正则表达式笔记
常用正则表达式笔记常用正则表达式笔记\w 大小写字母 以及0-9 下划线\s 匹配空格. 除\n 都能匹配re.verbos 忽略正则表达式中的换行?0个或1个*0个或多个+一个或多个re.dotall 表示 . 可以看作空格保证匹配到\n在这里插入图片描述...原创 2020-10-13 18:09:32 · 109 阅读 · 0 评论 -
超时设置:
超时设置:import urllib.requestfor i in range(0,100):try:file = urllib.request.urlopen(“https:www.baidu.com”, timout=1)print(len(file.read().decode(“utf8”)))except Exception as err:print(“出现异常”+str(err))原创 2020-10-11 12:24:29 · 107 阅读 · 0 评论 -
爬虫-urllib基础
爬虫-urllibimport urllib.request#1. urlretrieve(网址,本地文件的存储地址) 直接下载网页到本地#2. urlcleanup() 清除爬虫的缓存#3. urlopen(网址)#4. info() 获取爬虫简介信息,包括日期,类型等#5. getcode() 状态码,查看爬取的状态码#6. geturl() 调出当前访问的网址...原创 2020-10-11 12:22:29 · 134 阅读 · 0 评论