爬虫
Spencer_q
这个作者很懒,什么都没留下…
展开
-
爬虫(抓取静态页面和动态页面的区别,get请求和post请求的区别)
静态页面:非结构化数据:HTML处理方式:正则表达式,xpath, beautifulsoup4静态页面中的数据都包含在网页的HTML中(一般都是get请求)所以可以直接在网页的HTML中提取数据关键词一般都以查询字符串的方式拼接在URL中分析URL的变化可以进行多页爬取python2: urllib + urllib2 / requests# co...原创 2018-09-11 21:10:31 · 8863 阅读 · 0 评论 -
爬虫中,爬取到的json如何转换成csv文件用作数据分析?
版本:python2.7以爬取拉钩上深圳python的职位为例# coding=utf-8import requestsimport jsonfrom jsonpath import jsonpathimport urllibclass LagouSpider(object): def __init__(self): self.city = raw_...原创 2018-09-13 20:03:33 · 2368 阅读 · 1 评论