Python爬虫系列(一)初期学习爬虫的拾遗与总结

原创 2017年04月16日 20:22:01

最近,为了提取裁判文书网的有关信息,自己迈入Python的学习之路,写了快两周的代码,自己写这篇文章总结下踩过的坑,还有遇到一些好的资料和博客等总结下,以便自己后期复习和参考和、分享给大家交流学习,也欢迎大家补充些精彩内容。

一、环境搭建和工具准备

1、为了省去时间投入学习,推荐直接安装集成环境 Anaconda

2、IDE:Pycharm、Pydev

3、工具:Jupyter Notebook(安装完Anaconda会有的)

二、Python基础视频教程

1、疯狂的Python:快速入门精讲(Python2.x,可体验到与Python3.x的差异)

2、零基础入门学习Python(小甲鱼的视频课程)

看完这些课程,自己对Python有一个感觉和掌握,可以继续看一些进阶教程

3、Python3大全(pasword:bf3e)

三、Python爬虫视频教程

1、Python网络爬虫实战(完整的看下来,收获不小)

2、Python3爬虫三大案例实战分享(非常好的课程,很多干货)

四、Python爬虫的相关连接

1、python爬虫的最佳实践

2、Python网络爬虫实战项目代码大全

3、零基础制作一个Python 爬虫

4、Python爬虫入门

5、Python3(csdn博客)

7、抓取斗鱼tv的房间信息

五、正则表达式和BeautifulSoup、PhatomJS +Selenium的使用

1、Python爬虫小白入门

2、轻松自动化---selenium-webdriver(python)

3、 Python 正则表达式 re 模块简明笔记

4、【Python 笔记】selenium 简介

5、Python爬虫入门(7):正则表达式

(大家可以关注写这些文章的作者,一般他们有Python文集,大家可以收藏下有参考价值的文章)

六、自己爬取新浪新闻相关信息的实战



爬取页面

我直接把源码贴在这里了,是参考Python网络爬虫实战课程做下来的

新闻评论数抽取函数

import re

import json

import requests

#js抓取新闻评论信息

commentURL='http://comment5.news.sina.com.cn/page/info?version=1&format=js&\

channel=gn&newsid=comos-{}&\

group=&compress=0&ie=utf-8&oe=utf-8&page=1&page_size=20&jsvar=loader_1491395188566_53913700'

def getCommentCounts(newsurl):

#获取新闻id

m=re.search('doc-i(.+).shtml',newsurl)

newsid=m.group(1)

#根据新闻id获取评论信息

comments=requests.get(commentURL.format(newsid))

#将信息解析为json格式

jd=json.loads(comments.text.strip('var loader_1491395188566_53913 700='))

return jd['result']['count']['total']



新闻内文信息抽取函数

import requests

from datetime import datetime

from bs4 import BeautifulSoup

def getNewsDetail(newsurl):

result={}

res=requests.get(newsurl)

res.encoding='utf-8'

soup=BeautifulSoup(res.text,'html.parser')

result['title']=soup.select('#artibodyTitle')

timesource=soup.select('.time-source')[0].contents[0].strip()

result['dt']=datetime.strptime(timesource,'%Y年%m月%d日%H:%M')

result['source']=soup.select('.time-source span a')[0].text

result['article']=' '.join([p.text.strip() for p in soup.select('#artibody p')[:-1]])

result['editor']=soup.select('.article-editor')[0].text.lstrip('责任编辑:')

return result



七、感想

这些天学习下来,Python爬虫思路和套路很明确,主要是我们要对不同网站(反爬等)设计不同爬取路线和方法,但是还是要求自己总结方法和积累知识吧,还有一点自己也希望能把爬虫运用到实际生活或者应用中(如果单纯的抽取一个网页信息其实没多大意思),比如尝试应用到批量下载一个网站的图片或者文件等等,让爬虫为我们服务。


(ps:自己会持续更新和补充内容,也换大家留言补充)

版权声明:本文为博主原创文章,未经博主允许不得转载。

爬虫数据来源网站

1、顺企网  http://www.11467.com/dir.html 2、数据中华 http://data.allchinadata.com/Enterprise/Result.aspx?Key...
  • lzp158869557
  • lzp158869557
  • 2017年03月15日 14:26
  • 1177

爬取顺企网商户联系方式

顺企网企业联系方式等数据爬取,克服频繁访问的非机器人验证,通过图片url获取手机号码...
  • weixin_39465984
  • weixin_39465984
  • 2017年07月10日 16:25
  • 524

小甲鱼python视频教程053~055论一只爬虫的自我修养

论一只爬虫的自我修养 Python如何访问互联网 URL+lib》》》urllib URL的一般格式为(带方括号[]的为可选项) Protocol://hostname[:port]/path/[;p...
  • zxllll8898
  • zxllll8898
  • 2016年09月23日 23:28
  • 1950

论一只爬虫的自我修养 小甲鱼python教程笔记

一只Python爬虫的自我修养
  • weixin_34471817
  • weixin_34471817
  • 2017年03月28日 21:44
  • 871

Anaconda: 特别方便的整合了python下爬虫相关的依赖包

在windows下安装python和很多依赖包对于我这种懒人来说总觉得是一件非常痛苦的事情。之前偶然发现了一个python的大整合包,觉得异常好用,因此分享给大家。 Anaconda下载地址: h...
  • qijingpei
  • qijingpei
  • 2017年03月29日 11:28
  • 1883

python爬虫环境准备-安装anaconda

在windows环境下,比较头疼的就是包管理和Python不同版本的问题,为了解决这些问题,有不少发行版的Python,比如WinPython、Anaconda等,这些发行版将python和许多常用的...
  • qq_29186489
  • qq_29186489
  • 2017年11月15日 17:48
  • 122839

PYTHON学习路径计划图整理

PYTHON学习路径计划图 Python工作环境及基础语法知识了解 对于Python基础语法学习部分,学习周期大概为4周,需要的相关资源在网络上都能找到免费的资源,而且质量都不错。相关中文...
  • bjash
  • bjash
  • 2017年06月21日 09:56
  • 662

用Python写网络爬虫-学习总结

每日更新....
  • tianmaxingkong_
  • tianmaxingkong_
  • 2016年11月07日 23:50
  • 1758

Python爬虫学习系列教程-----------爬虫系列 你值的收藏

静觅 » Python爬虫学习系列教程:http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多。学习...
  • wickedvalley
  • wickedvalley
  • 2016年07月25日 23:04
  • 1710

python爬虫的心得与总结

最近老板让搞python爬虫,提取地图中水库位置。在开展下一段探索前,先记一些心得体会。 一、工欲善其事必先利其器 想要爬取网站上的信息,必须有一个好的工具。firefox和chrome都有不错的...
  • daniaokuye
  • daniaokuye
  • 2017年03月28日 09:54
  • 892
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Python爬虫系列(一)初期学习爬虫的拾遗与总结
举报原因:
原因补充:

(最多只允许输入30个字)