python爬取微博恶评_Python新浪微博爬虫-2 爬取评论用户的信息

weixin_39520199

于 2020-11-27 15:51:23 发布

阅读量207

点赞数

文章标签： python爬取微博恶评

这篇文章是Python爬虫的第二篇，目标是新浪微博的评论人的性别，地区，等信息，写的不好的地方请指正。

先来分析一下数据的位置。

个人资料的网址有两种，如果用户没有设置个性域名，网址即为图1，微博默认的ID（weibo.cn/u/**********）。否则为图二（weibo.cn/purdence520）。因为我们之前获取的到的信息，可能为域名或id，所以这里需要判断，再获取信息页。

3431944541eb

再来看看源码，信息都在class="c"的div的第五个子标签内（0索引开始）

3431944541eb

代码

def get_page(self, domain, num):

url = 'https://weibo.cn/{}/info'.format(domain)

print(url)

try:

req = requests.get(url, headers=self.header, timeout=5,

cookies=self.cookie[2],)

soup = BeautifulSoup(req.text, 'lxml')

if req.status_code == 200:

return soup

else:

print(req.status_code)

url = 'https://weibo.cn/{}'.format(domain)

req = requests.get(url, timeout=5,

cookies=self.cookie[self.cg_id],

headers=self.header)

soup = BeautifulSoup(req.text, 'lxml')

domain = re.compile(r'/(\d+)/info').\

findall(str(soup))[0]

return self.get_page(domain, num)

except Exception as e:

raise(e)

此方法用于获取信息页，需判断id页还是个性域名页。domain参数是id/域名，num参数是存到数据库里的自增列，用于定位。如果以id/info的网址可以获取到信息，则返回获取到的页面。否则用域名网站获取最后返回一个信息页面。

3431944541eb

个性域名错误网址，页面不存在。

3431944541eb

从个性欲名页面爬到ID

用正则表达式匹配信息，把没有填生日的信息设为none，用tools包操作数据库。

def get_sab(self, q):

while True:

num = q.get()

self.user_domain = tools.s_domain(num)

soup = self.get_page(self.user_domain, num)

try:

self.user_sex = re.findall(r'性别:(.*?)

self.user_area = re.findall(r'地区:(.*?)

self.user_birth = re.findall(r'生日:(.*?)

except Exception as e:

self.user_birth = 'none'

print(mp.current_process().name, num, self.user_sex,

self.user_area, self.user_birth)

tools.i_sab((self.user_sex, self.user_area, self.user_birth,

num))

sleep(randint(1, 3))

用Queue来生成数据库自增num，获取数据库中每一个domain

def set_num(self, q):

global num

while True:

q.put(num)

print(num, 'put')

num += 1

weixin_39520199

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。