Python网络爬虫——周报2

在这里插入图片描述

一、本周情况:

1.1 书籍学习

  • 第二部分: 高级数据采集
    • 数据清洗
    • 自然语言处理
    • 穿越网页表单与登录窗口进行采集
    • 采集javascript
    • 图像识别与文字处理
    • 避开采集陷阱
    • 用爬虫测试网站
    • 远程采集

二、笔记:



三、下周计划:

3.1、爬虫工程师起步(慕课网)

  • 开发环境搭建
  • 计算机网络协议基础
    • socket编程
    • TCP/IP
    • HTTP
  • 前端基础
    • html、css、JavaScript之间的关系
    • 浏览器加载过程
    • DOM树
    • ajax、json、xml
    • get、post、Content-type
  • 爬虫初体验
    • beautifulsoup
    • xpath
  • 项目实战:抓取CSDN论坛数据

3.2、分布式爬虫实战(第二期)(小象学院)

  • 静态网页爬虫:爬虫的基础技术
  • 登录及动态网页抓取
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值