女王节，请查收来自 51Reboot 的红包

最新推荐文章于 2022-04-21 13:36:53 发布

Python中文社区

最新推荐文章于 2022-04-21 13:36:53 发布

阅读量446

点赞数

微信图片_20180308071735.jpg

你没看错就是给你发红包了，识别小程序领红包。

今日报名课程的全部优惠200。

在 Python 语言几乎变成人人必会的一项技能时，你还不会这说的过去？作为一个互联网技术从业者连基本的爬数据都做不到，谈什么数据分析和了解互联网呢？学习爬虫技术，学会搜集数据绝对会是你工作和学习汇总的神助手。51Reboot 第18期 Python 公开课内容介绍如下：

主题：Python3 从青铜到王者——scrapy 爬虫实战

目录

爬虫是什么
requests + pyquery 做简单爬虫
scrapy 是什么
scrapy 核心概念
实战抓取

主讲师

undefined

蜗牛

非典型程序员，毕业之后接触了编程，从零基础成长至 BAT 高级工程师，为部门从零组建开发团队，带领完成多个大、中型项目，项目开发经验丰富并且深悉初学者学编程的方法，为人热情，乐于分析。前百度高级工程师、Python 老司机，擅长可视化，追求简洁极致的代码，现任 51Reboot.com 的 Python 课程总监。

爬虫是什么

爬虫一种按照一定的规则，自动地抓取万维网信息的程序或者脚本

万维网（抓取目标）
规则（获取数据的规则）
自动（脚本）

当你需要别的网站的数据的时候，你就需要爬虫

兴趣驱动学习

我要爬整个豆瓣！...
我要爬整个草榴社区！
我要爬知乎各种妹子的联系方式

这些情况，你都需要爬虫

爬虫通用策略

下载抓取目标的数据
- http 下载
设置具体获取数据的规则
- html 解析或者 json 解析
数据存储或者解析
- 文件| mysql | mongodb

http 下载

神器 requests
get
text
json 进阶（cookie 代理等）

html 解析

pyquery
使用 jquery 的语法解析 html 告别正则
#id
.class
html text

爬虫复杂后的问题

网站反爬虫策略
速度
数据去重
抓取策略，深度还是广度

Scrapy

Scrapy 核心概念
理解 html 和 xpath
items 设计
pipeline loader 机制

进阶

模拟登录
保存数据
验证码
分布式爬虫 scrapy-redis
反爬虫策略
phantormjs 动态网页

分享时间：

18年3月8日（周四）

21:00-22:00

分享方式：

网络直播

报名方式：

1、扫码添加小助手微信，备注"公开课"，进入分享群

Python中文社区

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。