Python网络爬虫
文章平均质量分 76
2014玩意儿
腾讯后台开发工程师
三年工作经验
熟悉Qt、C++、Linux、网络应用
展开
-
Python下载百度贴吧帖子里面的图片
学习网络爬虫的第一个程序:#-*- coding:utf-8 -*- #使用utf-8字符集import reimport urllibdef get_content(url): """ 获取页面源码""" html = urllib.urlopen(url) #获取网站页面的地址 content = html.read() #将页面读取到content变量中 ht原创 2015-06-18 16:55:04 · 553 阅读 · 0 评论 -
Python爬取某贴吧第一页的所有帖子的标题、连接、作者,将数据储存到txt文件中
学习网络爬虫的第二个程序:#-*- coding:utf-8 -*-#import reimport urllibfrom bs4 import BeautifulSoupimport urlparse #处理url链接的库import chardet #字符集检测import sys #解决UnicodeEncodeError: 'ascii' codec can't原创 2015-06-20 10:00:06 · 3948 阅读 · 1 评论