需求点:
1、在流量器中查看网站的源代码
2、使用Python读文本文件
3、正则表达式
4、先抓大后抓小的匹配技巧
5、使用python写CSV 文件
页面使用百度贴吧顺便一个帖子
找到username
找到发帖规律:
找到时间和楼数:
import re import csv with open('source.txt','r',encoding='UTF-8') as f: source = f.read() result_list = [] username_list = re.findall('username="(.*?)"',source,re.S) content_list = re.findall('j_d_post_content " style="display:;">(.*?)<',source,re.S) reply_time_list = re.findall('class="tail-info">(20.*?)<',source,re.S) print(username_list) print(content_list[1]) print(reply_time_list) for i in range(len(username_list)): result = {'username:':username_list[i], 'content:':content_list[1], 'reply_time':reply_time_list[1]} result_list.append(result)