爬虫python编程与cvi编程_无编程经验学习Python做爬虫,目前遇到困难,请各位指点下?...

这种规模的爬虫用sqlite3就够了

另外如果你要全天运转

推荐写成scrapy框架的形式

下面推荐一下我写的

如何从零开始写python爬虫

有系列文章了,可以看一下专栏

--------------------------------------------

从零开始写Python爬虫 --- 导言我是一名努力想做 coder 的小伙,目前自学Python有大半年了,期间也写过一些小的爬虫。说起来当时想成为程序员就是因为无意间了解到 爬虫 这个神奇的东西。这里会记录自己 重新梳理 学习Python爬虫的路线。也希望能成为一篇不错的入门爬虫教程,总之,希望自己能坚持把这个系列专栏写完。

学习之前需要哪些准备?一颗热爱学习,不屈不挠的心

一台有键盘的电脑(什么系统都行。我用的os x,所以例子会以这个为准)

html相关的一些前段知识。不需要精通,能懂一点就够!

Python的基础语法知识 。

如果我一点编程基础都没有怎么办?

现在开始学!Python是一门非常适合做入门学习的语言。如果你没有任何其他编程语言的基础,那么就来学Python吧。

我自己目前同时在学java和Python,就我自己的感觉来说,Python的语法简直太美妙了 不是有句话叫 Life is short, Use Python

有什么推荐的入门教材么?笨办法学Python(Learn Python the Hard Way),我看的这本书入门的,非常有趣,网上有翻译的版本,当然有条件的同学还是去看英文原著会更好。

廖大的Python3教程(廖雪峰的Python3教程)

具体的学习路线是什么?

总体分为三个大方面:

一: 简单的定向脚本爬虫(request --- bs4 --- re)

二: 大型框架式爬虫(Scrapy框架为主)

三:浏览器模拟爬虫 (Mechanize模拟 和 Selenium 模拟)

具体的步骤:

一:Beautiful Soup 爬虫requests库的安装与使用

安装beautiful soup 爬虫环境

beautiful soup 的解析器

re库 正则表达式的使用

bs4 爬虫实践: 获取百度贴吧的内容

bs4 爬虫实践: 获取双色球中奖信息

bs4 爬虫实践: 获取起点小说信息

bs4 爬虫实践: 获取电影信息

bs4 爬虫实践: 获取悦音台榜单

二: Scrapy 爬虫框架安装Scrapy

Scrapy中的选择器 Xpath和CSS

Scrapy 爬虫实践:今日影视

Scrapy 爬虫实践:天气预报

Scrapy 爬虫实践:获取代理

Scrapy 爬虫实践:糗事百科

Scrapy 爬虫实践: 爬虫相关攻防(代理池相关)

三: 浏览器模拟爬虫Mechanize模块的安装与使用

利用Mechanize获取乐音台公告

Selenium模块的安装与使用

浏览器的选择 PhantomJS

Selenium & PhantomJS 实践: 获取代理

Selenium & PhantomJS 实践: 漫画爬虫

最后,今天也是一时兴起才想做这么一个系列的记录,最终能不能写完自己心里也没底,

但我会尽量去写完它。现在是学期中后期了,一大堆节课论文在等着我,(文科生太苦逼)

加上,我也是边学边写,所以写的的不会太快,我尽量做到每周都写一两篇的。每天的学习记录都会 同步更新到:

微信公众号: findyourownway

知乎专栏 : 从零开始写Python爬虫 - 知乎专栏

个人博客 : Ehco的博客

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值