python爬虫
Great1414
不破不立
展开
-
python网页解析器
python的网页解析器; 正则表达式 html.parser Beautiful Soup(可以使用html.parser 和lxml两种解析器) lxml 步骤:未测试from bs4 import BeautifulSoup #导入模块 def htmlget(great): with open(great) as sm: #打开文件 soup = b原创 2018-01-27 09:50:33 · 889 阅读 · 0 评论 -
爬虫知识
转载 2018-01-28 18:37:28 · 119 阅读 · 0 评论 -
豆瓣读书排名—简单爬取第一页
import urllib.request #发送请求,获取响应 class A(): def get_html(self): response = urllib.request.urlopen(url) html = response.read().decode('utf-8') return html #写入文件 ...原创 2018-03-10 20:37:15 · 575 阅读 · 1 评论 -
爬虫scrapy学习
一、scrapy框架抓取网站,分为四个步骤:1)创建一个scrapy项目2)定义提取的Item容器3)编写spider爬虫,并提取Item4)编写Item Pipeline 存储提取到的Item二、具体思维导图解释(参考自https://www.cnblogs.com/kongzhagen/p/6549053.html)各部分组件:引擎(Scrapy)用来处理整个系统的数据流, 触发事务(框架核心...原创 2018-03-03 21:04:42 · 202 阅读 · 0 评论 -
豆瓣读书排名——正则提取
接着上文http://blog.csdn.net/weixin_41512727/article/details/79511353(豆瓣读书排名)。本次练习,在发送请求,获取网页信息后。通过正则表达式,根据网页的源码(https://www.douban.com/doulist/1264675/?start=25&sort=seq&sub_type=),提取需要的信息,如排名、书名...原创 2018-03-11 10:17:53 · 967 阅读 · 1 评论 -
豆瓣读书排名—beautifulsoup提取
import requests import re import json from bs4 import beautiful.soup #发送请求,获取响应 class A(): def get_html(self): response = requests.get(url) html = response.read().decode("utf-8")...原创 2018-03-13 23:09:21 · 350 阅读 · 0 评论 -
机器学习系列之kdtree
目的:最近有个项目,一条公交线路上,有n个站点。现在对每个站点附近的基站,进行聚合。首先,通过爬虫并利用高德API,获取了相应的站点的经纬度信息。然后利用基站维度表(包涵经纬度),计算距离公交站点的所有基站。 步骤一:爬取公交站 爬虫的内容相对简单,本文不在赘述。相关内容,可以自行学习,也可以在评论里探讨。 import requests import numpy as np import...原创 2018-07-17 15:44:44 · 1108 阅读 · 0 评论 -
爬取天气信息
天气查询:http://www.tianqihoubao.com/ 参考:https://blog.csdn.net/qq_38440882/article/details/82829865文章是保存到数据库,可以参考原文。 根据上面的内容,做了修改保存为DataFrame,保存为CSV,并且增加了温度上下限,可以参考下文。 from bs4 import BeautifulSoup im...原创 2018-11-30 17:12:11 · 514 阅读 · 0 评论