python
菜 头
java从入门到放弃,菜鸟飞不起。。。
展开
-
python从零开始写爬虫(2)
好了直接进入主题编写一个简单的爬虫例子:主要是爬新浪新闻最新消息的数据http://news.sina.com.cn/china/1.打开新闻网,定位到最新消息这里:2.试着先用python请求该链接,具体操作如下:import requestsnewurl = 'http://news.sina.com.cn/china/'res = requests.get(new原创 2017-01-12 14:50:31 · 1848 阅读 · 1 评论 -
python从零开始写爬虫(1)-- 开发环境搭建
我是一点都不会python,但为了写爬虫,所以就硬干了。。。1.windows下搭建python环境直接参考这个就行了安装指南2.透过pip安装套件:1)pip install requests;2)pip install BeautifulSoup4 具体操作:自己打开cmd,敲进pip install requests,等等片刻即可;然后再接着pip install Bea原创 2017-01-12 11:41:43 · 2821 阅读 · 2 评论 -
python从零开始写爬虫(3)
接下来我们要的数据还有每篇新闻的具体标题,内容,发布时间,编辑人,以及来源具体操作如下:1.任意点开一篇新闻,进入页面2.获取新闻标题,开发中模式分析标题:1)定位到对应标题:(标题在id为:artibodyTitle里面)2)实现代码:import requestsfrom bs4 import BeautifulSoupres = requests.get('h原创 2017-01-12 15:53:07 · 1039 阅读 · 0 评论 -
python从零开始写爬虫(5)-- 数据入库
写好的爬虫,现在就让他跑起来,把数据load到数据库具体操作:1.安装python 链接mysql的库:pip install PyMySql2.新建数据库及表:DROP TABLE IF EXISTS `news`;CREATE TABLE `news` ( `newsid` varchar(255) DEFAULT NULL, `title` varchar(255)原创 2017-01-12 17:00:18 · 5362 阅读 · 0 评论 -
python从零开始写爬虫(4)-- 整合代码
把前面代码整合下,抽取出到方法里,一只新浪新闻爬虫需要代码如下:import requestsfrom bs4 import BeautifulSoupimport reimport json#获取新闻链接def getNewsURLs(url): newsURL = [] newurl = url res = requests.get(newurl)原创 2017-01-12 16:24:23 · 1151 阅读 · 0 评论