Python爬虫
Python爬虫
阿.荣.
勿弃
展开
-
XPth的使用
XPath的使用XPath,全称 XML Path Language,即 XML 路径语言,它是一门在XML文档中查找信息的语言。XPath 最初设计是用来搜寻XML文档的,但是它同样适用于 HTML 文档的搜索。所以在做爬虫时,我们完全可以使用 XPath 来做相应的信息抽取,本节我们来介绍一下 XPath 的基本用法。1. XPath概览XPath 的选择功能十分强大,它提供了...转载 2019-10-29 16:00:22 · 223 阅读 · 0 评论 -
re正则表达式
原创 2019-10-30 12:09:20 · 110 阅读 · 0 评论 -
Python操作数据库之insert、update
1、链接数据库import pymysqldb = pymysql.connect(host='localhost', user='root', password='123456', port=3306, db='spiders')cursor = db.cursor()sql = 'select * from students;'cursor.execute(sql)curso...转载 2020-01-18 15:27:17 · 1303 阅读 · 0 评论 -
Python网络爬虫与信息提取--网络爬虫之规则 [requests库]【嵩天】
requests库的7个主要方法1.1 requests库的get()方法1.1.1 requests.get()requests.get(url, params=None, **kwargs)获取url页面信息,url指定了页面的地址,params和**kwargs等12个控制访问的12个参数是可选项。1.1.2 requests库两个重要对象Respo...原创 2019-09-07 22:02:12 · 229 阅读 · 0 评论 -
Python网络爬虫与提取--网络爬虫之提取[BeautifulSoup库]【嵩天】
目录2.1BeautifulSoup库的元素BeautifulSoup库的理解BeautifulSoup库的引用BeautifulSoup库的解析器BeautifulSoup库的基本元素2.2 基于bs4库的HTML内容遍历方法标签树的下行遍历:标签树的上行遍历:标签树的平行遍历:bs4库的编码:2.3信息组织提取2.3.1 信息标记...原创 2019-09-08 20:10:34 · 206 阅读 · 0 评论 -
Python网络爬虫与提取--网络爬虫之正则表达式[Re库]【嵩天】
正则表达式:一种通用的字符串表达框架编译:p = re.compile(regex),将符合正则表达式语法的字符串regex转换成正则表达式特征p3.1 正则表达式的语法(操作符)3.2 Re库importre3.2.1 正则表达式的表示类型re库采用rawstring类型(原生字符串类型)r'text'表示正则表达式,也可用字符串直接表示,但是含有转义字符时...原创 2019-09-14 09:47:02 · 353 阅读 · 0 评论