python爬虫获取em第一个_第一个python爬虫实例：爬取嗅事百科

最新推荐文章于 2021-07-14 09:00:00 发布

weixin_39613291

最新推荐文章于 2021-07-14 09:00:00 发布

阅读量263

点赞数

文章标签： python爬虫获取em第一个

本文链接：https://blog.csdn.net/weixin_39613291/article/details/113672772

版权

本文介绍了作者初次使用Python爬虫爬取嗅事百科网页上的用户信息，包括楼主、岁数、发言、好笑、评论、点赞和踩的数据，并将这些信息存储到Excel文件的过程。文章提到了使用requests、bs4、re、os、openpyxl等库，并分享了学习爬虫的心得和遇到的问题，如数据写入文件时的异常处理和特殊字符问题。

摘要由CSDN通过智能技术生成

第一次写文章，有哪些不足希望指出，有哪个技术写的有问题，可以一起学习。

环境：python3.5

外部的库：requests,bs4, re,os,openpyxl

实现目标：爬取嗅事百科页面相关的楼主，岁，发言，好笑，评论，点赞数，踩等信息，并把相应的信息存储到文件或者Excel中

刚学爬虫有很多要学的，谈一下学习方法和学习感受，希望在后续的学习中能够效率高点，以openpyxl这个python模块，在爬这个案例时，第一次接触到，刚开始不是太理解怎么把每一条数据插入到Excel中，最后看了简书上的一篇关于 python用openpyxl来操作excel表格，然后练习了小例子才明白了ws.append([1,2,3]) 可以用append添加行 python的模块，虽然爬取不是太困难，但是因为自己基础太弱，中间遇到不少困难，多谢朋友指点，缺点：之前没加异常处理，如果不加的话，特别留言的内容，客户说的有一些特殊字符，写入文件，很容易出错，如果你写很多条记录，可能因为一条记录出错，导致文件保存错误

3861dfe51920?utm_campaign=maleskine

(转自博主 http://www.jianshu.com/p/47d972734f60)

相关代码：

importre

import requests

import time

import os

from openpyxl import Workbook

from openpyxl.compat import range

def getBaikeInfor():

try:

headers ={

'Host':'www.qiushibaike.com',

'Upgrade-Insecure-Requests':'1',

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36'

}

res = requests.get('https://www.qiushibaike.com/',headers= headers)

result = res.text

# print(result)

# print('result===============')

pattern = re.compile('(.*?).*?.*?(.*?).*?(.*?).*?stats-comments.*?number">(.*?).*?up.*?number hidden">(.*?).*?.down.*?number hidden">(.*?)',re.S)

items = re.findall(pattern,result)

number =1

# print(len(items))

#filename = 'baike.txt'

#f = open(filename, 'a+',encoding='utf-8')

allResultList=[]

foriteminitems:

# print('{lou}楼'.format(lou=number)+'\n'+'楼主:{master}'.format(master =item[0])+'/n'+'{age}岁'.format(age=item[1])+'发言：{language}'.format(language = item[2])+'好笑:{xiao}'.format(xiao =item[3])+'评论：{pinglun}'.format(pinglun=item[4])+'赞：{zan}'.format(zan =item[5])+'踩：{cai}'.format(cai=item[6]))

try:

resultList=['{lou}楼'.format(lou=number),

'楼主:{master}'.format(master=item[0]).strip().replace('\n',''),

'{age}岁'.format(age=item[1]).strip(),

'发言：{language}'.format(language=item[2]).strip().replace('\n','').replace('[','').replace(']',''),

'好笑:{xiao}'.format(xiao=item[3]),

'评论：{pinglun}'.format(pinglun=item[4]),

'赞：{zan}'.format(zan=item[5]),

'踩：{cai}'.format(cai=item[6])

]

# allresultlist = []

# allresultlist.extend(resultList) #append extend区别