![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
学喳喳
软件工程专业学生
展开
-
python爬虫笔记(一)
1.架构调度器:负责协调工作URL管理器:通过内存、数据库、缓存数据库实现网页下载器:urllib2(登录、代理、cookie)、requests网页解析器:正则表达式、html.parser、beautifulSoup(一锅汤)、lxml(可以解析xml和html)应用程序:2.urllib2实现下载网页的三种方式#!/usr/bin/python# -*- coding: UT...原创 2019-04-30 18:12:22 · 252 阅读 · 0 评论 -
python学习笔记(爬虫实例)
任务一:新浪微博热搜标题1>获取网页from bs4 import BeautifulSoupimport requestsif __name__=="__main__": target='https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6' req=requests.get(url...原创 2019-04-30 18:25:09 · 154 阅读 · 0 评论 -
python爬取豆瓣top250的电影
from urllib import requestfrom lxml import etree#构造函数,抓取第i页信息def crow(i): # 构造第i页的网址 url='https://movie.douban.com/top250?start='+str(25*i) # 发送请求,获得返回的html代码并保存在变量html中 html=requ...原创 2019-04-30 18:55:24 · 517 阅读 · 0 评论 -
python爬取北京小学学校信息
1.目标:爬取北京所有的小学名单链接:http://beijing.xuexiaodaquan.com/xiaoxue/pn30.html分析:代码:from urllib.request import urlopenfrom bs4 import BeautifulSoupfor i in range(30): html = urlopen('http://beijing....原创 2019-05-11 15:30:33 · 535 阅读 · 0 评论 -
2019.6.26 python实现机器学习----scikit-learn库
1.scikit-learn库的产生scikit-learn最初是David Cournapeau在2007年Google夏令营的代码项目中首次实现的。后来Matthieu Brucher加入了这个项目,并开始将其作为论文工作的一部分。2010年,INRIA参与其中,并于2010年1月第一次公开发布scikit-learn的v0.1 beta版本。该项目目前有30多名活跃的贡献者,并已获得...原创 2019-06-26 17:29:34 · 1230 阅读 · 0 评论