爬虫
Mr_lee_long
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python ImportError: No module named BeautifulSoup
?1from BeautifulSoup import BeautifulSoup,Tag,CData;为了支持Python 3,所以去主页:http://www.crummy.com/software/BeautifulSoup/下载了beautifulsoup4-4.1.3.tar.gz,并安装了B转载 2018-02-03 15:48:02 · 2295 阅读 · 0 评论 -
将scrapy框架爬取的数据保存到MongoDB中
以爬取豆瓣网为例子,使用scrapy框架爬取豆瓣网电影排行榜,并将数据保存到MongoDB中。首先,创建项目 scrapy startproject doubantree一下进入到spider目录,scrapy genspider doubanSpider.├── douban│ ├── __init__.py│ ├── __pycache__│ │ ├── __init_...原创 2018-03-24 20:37:38 · 5586 阅读 · 0 评论 -
写一个python定时发送消息的脚本——每天跟你女盆友说晚安
首先 你要有个女朋友效果需要安装几个包pip install wxpypip install wechat_senderpip install requests代码如下from __future__ import unicode_literalsfrom threading import Timerfrom wxpy import *from wechat_sender import Sen...原创 2018-03-24 17:43:49 · 12343 阅读 · 4 评论 -
python爬虫实例——用scarpy框架爬取全部新浪新闻
使用scrapy框架爬取新浪网导航页所有的大类,小类的子链接,取出链接页面新闻内容。python版本3.5注意点:spider文件中不写allowed domains,因为后面的子链接的url中跟不包含new.sina.com爬虫运行报错:DEBUG: Filtered offsite request to 'weixin.sogou.com'报错原因:官方对这个的解释,是要request的地址和...原创 2018-03-24 16:56:23 · 4937 阅读 · 0 评论 -
Python爬虫面试常见问题
Python爬虫面试常见问题2018-03-12 莫航 Python达人课堂是否了解线程的同步和异步?1线程同步:多个线程同时访问同一资源,等待资源访问结束,浪费时间,效率低 2线程异步:在访问资源时在空闲等待时同时访问其他资源,实现多线程机制是否了解网络的同步和异步?1同步:提交请求->等待服务器处理->处理完毕返回 这个期间客户端浏览器不能干任何事2异步:请求通过事件触发->...原创 2018-03-12 22:05:30 · 789 阅读 · 0 评论 -
网络爬虫5个小实例
京东商品页面爬取url = "https://item.jd.com/5821455.html"try: r = requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding print(r.text)except: print("爬取失败")亚马逊商品页面爬取import r...原创 2018-02-28 16:27:50 · 1100 阅读 · 0 评论 -
request库的基本用法
requesturllib获取urlrequest = requests.get("http://www...com")request = urllib2.Request("http://www....com",headers = headers)response = urllib2.urlopen(request)获取状态码 request.states_code response.ge...原创 2018-02-27 19:49:08 · 17922 阅读 · 0 评论 -
用python itchat写一个微信机器人自动回复
首先看一下效果: 进入正题:一、首先要去图灵机器人网站注册一个机器人账号:链接:http://www.tuling123.com/你可以获取自己的图灵机器人apikey懒得话不注册也可以,我下面的代码里面有我自己的,照样可以用。^_^二、好了,开始上代码。先导入两个包,没有的要先下载安装。直接命令pip install itchat,不出意外就OK。 import itchatimport r...原创 2018-03-07 16:40:53 · 2290 阅读 · 0 评论 -
百度贴吧页面爬取
首先,分析百度贴吧url结构:列如:http://tieba.baidu.com/f?kw=python&ie=utf-8&pn=1200http://tieba.baidu.com/f? + kw={要搜索的关键字} + &ie=utf-8 + &pn=1200kw:要搜索的关键字 &ie=utf-8 字符集 &pn=1200 页...原创 2018-02-27 11:18:39 · 915 阅读 · 0 评论
分享