爬虫
Spencer_q
这个作者很懒,什么都没留下…
展开
-
爬虫(抓取静态页面和动态页面的区别,get请求和post请求的区别)
静态页面: 非结构化数据:HTML 处理方式:正则表达式,xpath, beautifulsoup4 静态页面中的数据都包含在网页的HTML中(一般都是get请求) 所以可以直接在网页的HTML中提取数据 关键词一般都以查询字符串的方式拼接在URL中 分析URL的变化可以进行多页爬取 python2: urllib + urllib2 / requests # co...原创 2018-09-11 21:10:31 · 8860 阅读 · 0 评论 -
爬虫中,爬取到的json如何转换成csv文件用作数据分析?
版本:python2.7 以爬取拉钩上深圳python的职位为例 # coding=utf-8 import requests import json from jsonpath import jsonpath import urllib class LagouSpider(object): def __init__(self): self.city = raw_...原创 2018-09-13 20:03:33 · 2366 阅读 · 1 评论