爬虫基础
楼上little黑
我要不写点东西,他就说我偷懒,没写签名
展开
-
基础4·requests库(网址请求库)的使用方法
# 导入import requests# 请求网址r = requests.get(url=url, params=params, headers=headers)url: 要访问的网站params: 可以用来拼接网址, 以字典形式添加headers: 请求头数据,以字典形式添加返回请求状态码# 处理json数据r.json()# 保存文本r.text二进制...原创 2019-04-27 16:18:41 · 411 阅读 · 0 评论 -
基础5·selenium库(浏览器模拟库)的使用方法
#打开浏览器from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionschrome_options = Options()browser_add = r'D:\软件安装地址\360Chrome\Chrome\Application\360chrome.exe'chrome_op...原创 2019-04-27 18:06:48 · 378 阅读 · 0 评论 -
基础1·网页源代码的结构认识(BeautifulSoup库的解析)
原创 2019-04-24 09:50:27 · 1685 阅读 · 0 评论 -
基础2·lxml库(节点解析库)的使用方法
调用:from lxml import entree解析网页代码:html = entree.HTML(ret)网页源码修补:entree.tostring(html)文本获取:html.xpath('//<节点名称>/text()')节点获取:所有节点获取:html.xpath('//*')指定节点获取:html.xpath('//<...原创 2019-04-24 13:18:32 · 1809 阅读 · 0 评论 -
基础3·BeautifulSoup库(节点解析库)的使用方法
导入:from bs4 import BeautifulSoup解析网页代码:soup=BeautifulSoup(ret,‘html.parser’) html.parser:解析器类型使用函数原创 2019-04-24 14:26:34 · 660 阅读 · 0 评论 -
citycode
110000 北京市 110100 市辖区 110101 东城区 110102 西城区 110105 朝阳区 110106 丰台区 110107 石景山区 110108 海淀区 110109 门头沟区 110111 房山区 110112 ...转载 2019-05-07 21:19:18 · 3412 阅读 · 0 评论