Python笔记本

爬虫基本原理

爬虫是请求网站提取数据的自动化程序


爬虫的基本流程

  1. 发起请求:通过http库想目标站点发送请求
  2. 如果服务器响应,会得到一个response
  3. 解析内容
  4. 保存数据,保存成文本或者至数据库
#!/usr/bin/env python
# encoding: utf-8

import requests
response = requests.get('http://www.baidu.com')
print response.headers
print response.status_code
print response.text


能抓取怎么样的数据

  1. 抓取网页文本
  2. 抓取图片
  3. 视频
  4. 其他
#!/usr/bin/env python
# encoding: utf-8

import requests
response = requests.get('https://ss1.bdstatic.com/kvoZeXSm1A5BphGlnYG/skin_zoom/178.jpg?2')
with open('e:/aaa.jpg', 'wb') as f:
    f.write(response.content)
    f.close()


有哪些解析方式

  1. 直接处理(网页构造简单、返回的内容简单)
  2. Json解析(返回Json的字符串)
  3. 正则表达式
  4. BeatifulSoup
  5. PyQuery
  6. Xpath


怎么解决javascript渲染的问题,获取的网页和浏览器打开的网页内容不一致,如下

#!/usr/bin/env python
# encoding: utf-8

import requests
response = requests.get('https://m.weibo.cn/')
print response.headers
print response.status_code
print response.text

  1. 分析Ajax请求
  2. selenium/WebDriver
from selenium import webdriver

driver = webdriver.Chrome()
driver.get('https://m.weibo.cn/')
#driver.get('https://www.zhihu.com/')
print driver.page_source

    3. Splash

    4. PyV8、Ghost.py


怎么样来保存数据

  1. 纯文本
  2. 关系型数据库
  3. 非关系型数据库
  4. 二进制文件

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值