python爬虫
bailixuance
拒绝拖延,做一个执行力强的人。
做好精力分配。
展开
-
python3爬取1000个百度百科页面(一)
一、基本概念 爬虫:一段自动抓取互联网信息的程序 二、简单爬虫架构 1、URL管理器:管理已经爬取和未曾爬取的url,防止重复、循环抓取 python中set可以直接去除重复元素 2、网页下载器:将网页下载到本地,urllib2,request, 3、网页解析器:从网页中提取有价值的数据的工具,可以解析网页含有的u...原创 2018-10-11 03:37:44 · 394 阅读 · 0 评论 -
python3爬取1000个百度百科页面(二)
五、爬虫流程 六、代码结构: 爬虫调度器(入口)--url管理器--url下载器--解析器--输出器 spider_main.py(入口) from baike_spider import url_manager # url管理器 from baike_spider import html_downloader # url下载器 from baik...原创 2018-10-11 03:37:49 · 300 阅读 · 0 评论 -
python爬虫模拟登陆豆瓣
一、简介 工具:Google chrome python 爬虫登陆方式一般有两种: 第一种:使用post登陆,即需要输入账号密码等选项, 第二种:使用cookies登陆,即把已登陆好账号的cookies拷贝到代码中, 两种方式各有优缺,第一种可能再代码运行中会出现验证码选项,需要写验证码方面的代码, 第二种较为方便。 二、获取需要的数据 我们以豆瓣电影《战狼2》为...原创 2018-12-02 16:24:15 · 1629 阅读 · 0 评论 -
Python爬虫:常用的浏览器请求头User-Agent
user_agent = [ "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50", "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) Ap...原创 2018-12-02 16:34:10 · 587 阅读 · 0 评论 -
Python爬虫实战:分析《战狼2》豆瓣影评
一、介绍: 环境:win10 ,jupyter notebook, python3.6,,re, bs4,requests 爬取豆瓣电影《战狼2》 主页: https://movie.douban.com/subject/26363254/ 短评主页: https://movie.douban.com/subject/26363254/comments?sort=new_score&a...原创 2018-12-02 20:21:58 · 2969 阅读 · 0 评论 -
post使用方法以及有道API
import requests import json headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"} def youdaoAPI(kw): ...原创 2019-04-28 15:16:44 · 1074 阅读 · 0 评论