python爬虫小记（2）

最新推荐文章于 2020-06-04 22:22:34 发布

大头和小花

最新推荐文章于 2020-06-04 22:22:34 发布

阅读量193

点赞数

分类专栏：笔记文章标签： python

本文链接：https://blog.csdn.net/weixin_40143316/article/details/88706572

版权

笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

import urllib.request
import re
import pypinyin
import time

def getresources(url):
webSourceCode = urllib.request.urlopen(url).read().decode(“gbk”, “ignore”)
contentRe = re.compile(r’

(.?) .?

‘)
content = contentRe.findall(webSourceCode)
return content
def getpage(url):
webSourceCode = urllib.request.urlopen(url).read().decode(“gbk”, “ignore”)
PageRe = re.compile(r’ (.*?)’)
page = PageRe.findall(webSourceCode)
for item in page:
page.remove(item)
item=re.sub(r’共’,’’,item)
item = re.sub(r’页’, ‘’, item)
page.append(item)
page = “”.join(page)
return page
def hp(word):
#将汉字转换为拼音
s = “”
for i in pypinyin.pinyin(word, style=pypinyin.NORMAL):
s += ‘’.join(i)
return s

data = open(“e:\jingdian2.txt”,‘w+’)
data1 = open(“e:\userdict.txt”,‘r’,encoding=‘utf-8-sig’)
list1 = []
for line in data1:
list1.append(hp(line.strip().split(’,’)[0]))
print(list1)
list2 = list1[10:]
print(list2)
count = 0
for item in list2:
time.sleep(3)
print(item)
count +=1
if count>5:
break
else:
url = f"https://" + item + “.cncn.com/jingdian/”
x = getpage(url)
print(x)
z = int(x.strip())
print(z)
for i in range(1, z + 1):
if i == 1:
url1 = f"https://" + item + “.cncn.com/jingdian/”
else:
url1 = f"https://" + item + “.cncn.com/jingdian/1-” + str(i) + “-0-0.html”
content = getresources(url1)
for i in content:
data.write(item+","+i + ‘\n’)

只敢一部分一部分地爬，一次性地爬会被网站封掉。
爬虫小白，还没有学会虚拟ip之类的操作

大头和小花

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫小记（2）

import urllib.requestimport reimport pypinyinimport timedef getresources(url):webSourceCode = urllib.request.urlopen(url).read().decode(“gbk”, “ignore”)contentRe = re.compile(r’ (.?) .? ‘)conte...
复制链接

扫一扫