本文实例为大家分享了python爬取微信公众号文章的具体代码,供大家参考,具体内容如下
该方法是依赖于urllib2库来完成的,首先你需要安装好你的python环境,然后安装urllib2库
程序的起始方法(返回值是公众号文章列表):
def openurl():
print("启动爬虫,打开搜狗搜索微信界面")
# 加载页面
url = 'http://weixin.sogou.com/weixin?type=1&s_from=input&query=要爬取的公众号名称'
htmlcontentobj = urllib2.urlopen(url)
# 将页面转化为文本
html = htmlcontentobj.read()
# 正则匹配
str = re.findall(r"http://mp.weixin.qq.com/profile.+==",html)
# 替换转义符得到可访问的链接地址
temphref = re.sub(r"&","&",str[0])
return temphref
根据获取到的文章列表的页的链接地址(注意是文章列表页面的得链接地址,不是文章的地址)将页面读取为文本
# 获取页面文本方法
def gethtmlstr(conurl):
# 相当于把页面转化为文本
response = urllib2.urlopen(conurl)
# 读取文本的字符串
htmlstr = respons