python与爬虫
文章平均质量分 54
Waterkong
https://kongdada.github.io/
展开
-
我的第一个爬虫
# 环境python 3.5.2 + beautifulsoup # 准备工作:了解 python 自带的模块 urllib + beautifulsoup 的网页解析#爬取了一个图片网站的部分图片from urllib import requestfrom bs4 import BeautifulSoupimport osimport os.pathimport retry: r原创 2017-05-24 13:06:12 · 560 阅读 · 0 评论 -
Python爬取百度贴吧帖子
首先贴自己遇到的问题:'gbk' codec can't encode character '\u20af' in position 566: illegal multibyte sequence解决办法:http://www.cnblogs.com/feng18/p/5646925.html 这个文章很清晰。这个解决了 print 问题,但解决不了 wirte 问题。只抓取楼主原创 2017-05-29 10:14:13 · 1047 阅读 · 0 评论 -
urllib 与 requests 分别搭配 beautifulsoup 的不同写法
使用 urllib ,代码如下:from urllib import requestfrom bs4 import BeautifulSoup url = 'http://www.qiushibaike.com/text/page/1'req = request.Request(url)req.add_header('User-Agent', 'Mozilla/4.0 (compa原创 2017-05-27 00:07:35 · 971 阅读 · 0 评论 -
Python爬虫爬取糗事百科段子
代码有可能出现以下错误:'gbk' codec can't encode character u'\xa0' in position 3621: illegal multiby网页编码问题,所学有限暂不能完全解决。 但实验发现利用 " gb2312"解码不会出现以上问题,但是无法正常输出。利用 " utf-8" 解码有可能会出现以上问题。所实现的功能,爬取了糗事百科的文字类的段原创 2017-05-27 21:16:34 · 629 阅读 · 0 评论 -
抓取爱问知识人问题,保存至数据库。
新手上路,欢迎批评。博客暂时只为记录学习过程。抓取结果:整体思路:1.链接数据库并建好一张表。要存储以下信息,问题,回答者,回答时间,回答内容。def createtable(): # 打开数据库连接 db = pymysql.connect("localhost","root","sql123","likelearn", charset='utf8' ) # 使用 curs原创 2017-06-11 10:56:55 · 511 阅读 · 0 评论 -
python+selenium+PhantomJS爬取网页动态加载内容
原文网址 :http://www.cnblogs.com/chenice/p/6994111.html以下为复制粘贴内容。一般我们使用python的第三方库requests及框架scrapy来爬取网上的资源,但是设计javascript渲染的页面却不能抓取,此时,我们使用web自动化测试化工具Selenium+无界面浏览器PhantomJS来抓取javascript渲染的页面,下面转载 2017-08-06 15:04:40 · 1221 阅读 · 0 评论 -
python3 一些经常使用的数据结构和内置方法。
(一)输出print(a,b,c,sep="$",end="*") # 参数sep指定输出分隔符,参数end指定输出结尾,默认是换行。(二)数字int('111', n) # 按照 n 进制将一个字符串转换为整数。默认十进制。bin() # 转换为二进制oct() # 转换为八进制hex() # 转换为十六进制complex(实部,虚部)原创 2017-09-16 14:58:56 · 446 阅读 · 0 评论