![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
网络爬虫
在路上哟~
欢迎纠错^O^~
展开
-
提取作者用户名,帖子内容,回复时间
thread_list_bottom clearfix'的字符串,并将结果赋值给变量'every_reply'。# 创建一个CSV写入器,指定字段名为'username', 'content', 'reply_time'# 打开名为'tieba.csv'的文件,并以写入模式('w')写入数据。# 打开名为'a1.txt'的文件,并以只读模式('r')读取其内容。# 如果当前主题作者的帖子存在,则提取帖子的内容并去除其中的换行符。# 读取文件的所有内容并赋值给变量'source'原创 2023-10-23 10:08:06 · 124 阅读 · 0 评论 -
写csv文件
writeheader 方法可以写入 CSV 文件的列名,也就是我们指定的 'name', 'age', 'salary' 这三个字段。# writerow 方法可以写入一行数据,这里写入了字典 {'name':'超人','age':999,'salary':0}。writer.writerow({'name': '超人', 'age': 999, 'salary': 0}){'name':'小明','age':'30','salary':'N/A'}]原创 2023-10-23 09:48:53 · 65 阅读 · 0 评论 -
正则表达式
包含多个括号的情况下,返回:[('kingname', '12345678'), ('99999', '890abcd'), ('000001', '654321'), ('99999@qq.com', '7777love8888')]找到内容,返回:['123456', '33445566', '888888', '999abc999']<re.Match object;['张三', '李四', '王五', '不知名的小虾米', '隐身的张大侠']真正有效的人名:['张三', '李四', '王五']原创 2023-10-23 09:46:27 · 340 阅读 · 0 评论 -
使用socket对http站点的访问
使用socket对http站点的访问步骤:1、实现TCP客户端2、设置访问的网站地址3、创建发送的请求报文4、连接和发送报文到百度5、显示百度回复的内容import socket# 建立TCP连接s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)# 与服务器建立连接host = 'www.baidu.com' # 服务器的主机名(或IP地址)s.connect(('www.baidu.com', 80)) # 端原创 2023-10-20 22:57:08 · 353 阅读 · 0 评论 -
把请求头信息添加到请求报文中,然后发送请求到淘宝,显示回复信息
"在请求报文中添加User-Agent头信息,这是一个假扮的浏览器信息,通常服务器会根据这个信息来返回不同的内容。"使用'recv'方法接收服务器返回的HTTP响应报文,并使用'decode'方法将其从二进制格式转换为字符串格式。"在请求报文中添加Host头信息,其中'{}'被替换为淘宝的域名(http://www.taobao.com)。"在请求报文中添加Connection头信息,其值为'close',表示此请求完成后,就关闭连接。"再添加一个空行,表示请求报文的结束。原创 2023-10-20 22:50:23 · 208 阅读 · 0 评论 -
网络服务器和客户端的编写
"""1、创建TCP服务器"""import socket # 用于网络通信import threading # 创建多线程处理客户端请求import time # 用于添加数据时用于延迟,模拟网路传输# 建立TCP连接s = socket.socket(socket.AF_INET,socket.SOCK_STREAM)# 绑定地址及监听端口s.bind(('127.0.0.1',6666)) # 将服务器IP地址和端口号绑定到socket对象上,这里使用'127.0.0.原创 2023-10-20 22:37:21 · 134 阅读 · 0 评论 -
抓取唯美图库(BeautifulSoup)
1、拿到主页面的源代码,然后提取到子页面的简介地址,href2、通过href拿到子页面的内容。从子页面中找到导图片的下载地址 img -> src3、下载图片原创 2023-07-10 20:12:55 · 269 阅读 · 0 评论 -
电影天堂.
提取 最新综艺资源推荐 的电影名字和下载链接。原创 2023-07-09 12:08:25 · 436 阅读 · 0 评论 -
豆瓣T250电影
爬取电影名字、年份、评分、评价人数原创 2023-07-09 11:51:39 · 151 阅读 · 0 评论