越学越茫

Python路上

Scrapy_CSS选择器

文章目录Scrapy——CSS选择器E: 选中E元素E1, E2: 选中E1和E2元素E1 E2: 选中E1后代元素中的E2元素E1>E2: 选中E1子元素中的E2元素[ATTR]: 选中包含ATTR属性的元素[ATTR = VALUE]: 选中包含ATTR属性且值为VALU...

2018-11-08 16:32:04

阅读数 109

评论数 0

Scrapy_XPath选择器

文章目录XPath选择器基础语法常用函数 XPath选择器 XPath即XML路径语言,它是一种用来确定xml文档中某个部分位置的语言 基础语法 下面通过一个HTML文档讲解各个语法 from scrapy.selector import Selector from scrapy.http imp...

2018-11-08 16:20:29

阅读数 48

评论数 0

Scrapy_LinkExtractor

文章目录使用LinkExtractor提取链接描述LinkExtractor提取规则LinkExtractor构造器参数描述 使用LinkExtractor提取链接 提取页面链接有Selector和LinkExtractor两种方法 因为链接也是页面中的数据,所以可以使用与提取数据相同的方法进行提...

2018-11-08 16:03:21

阅读数 255

评论数 0

Python异常:IndentationError: unexpected unindent

Python异常:IndentationError: unexpected unindent 异常分析:缩进问题,Python是按空格进行分割代码块的 解决办法:按提示在给出错误的行数附近查看,是否缩进有误 ...

2018-10-30 21:24:49

阅读数 116

评论数 0

MongoDB

文章目录 MongoDB的安装配置(Windows)

2018-10-24 20:21:56

阅读数 30

评论数 0

Python_面向对象

文章目录类的定义数据成员-实例变量与类变量 类的定义 Python使用class关键字来定义类,class关键字之后是一个空格,接下来是类的名字,如果派生(继承)自其他基类的话,则需要把所有基类放到一对圆括号中并使用逗号分隔,然后是一个冒号,最后换行并定义类的内部实现。类的首字母一般要大写 语法格...

2018-10-22 18:51:49

阅读数 39

评论数 0

Python_Proxy代理

文章目录urllib方式Requests方式 urllib方式 第一步:创建一个代理处理器ProxyHandler urllib.request.ProxyHandler(proxies=None) ProxyHandler是一个类,其参数是一个字典:{“协议类型” :“代理IP:端口号”}。...

2018-10-21 17:01:50

阅读数 218

评论数 0

Python爬虫_Cookie

文章目录Cookie状态管理Cookie处理 Cookie状态管理 由于HTTP是一种无状态的协议,服务器单从网络连接上无从知道客户身份。怎么办呢?就给客户端们颁发一个通行证吧,每人一个,无论谁访问都必须携带自己通行证。这样服务器就能从通行证上确认客户身份了。这就是Cookie的工作原理 Cook...

2018-10-20 20:00:09

阅读数 40

评论数 0

Python_urllib

文章目录简介urllib.request 简介 urllib是一个集合几个处理URL模块的包: urllib.request 用于打开和阅读URL中内容 urllib.error 包含由urllib.request发生的异常 urllib.parse 用于解析URL urllib.robotop...

2018-10-20 10:15:44

阅读数 72

评论数 0

Python爬虫_HTTP标准

文章目录简介HTTP请求过程HTTP状态码含义HTTP头部信息 简介 HTTP协议(超文本传输协议)是用于从WWW服务器传输超文本到本地浏览器的传送协议。它可以使浏览器更加高效,减少网络传输。它不仅保证计算机正确快速地传输超文本文档,还确定传输文档中的哪一部分,以及哪部分内容首先显示(如文本先与图...

2018-10-19 19:55:25

阅读数 37

评论数 0

Python爬虫_数据存储

文章目录HTML正文抽取多媒体文件抽取Email提醒 HTML正文抽取 HTML正文存储主要分为两种格式:JSON和CSV 储存为JSON 需求:抽取小说标题、章节、章节名称和链接 首先使用Requests访问http://seputu.com/,获取HTML文档内容,并打印文档内容 import...

2018-10-18 21:42:45

阅读数 69

评论数 0

Python_XPath

文章目录简介XPath节点 简介 XPath是一门在XML文档中查找信息的语言,被用于在XML文档中通过元素和属性进行导航。XPath虽然是被设计用来搜索XML文档,不过它也能很好地在HTML文档中工作,并且大部分浏览器也支持通过XPath来查询节点。在Python爬虫开发中,经常使用XPath查...

2018-10-18 11:04:58

阅读数 56

评论数 0

File was loaded in the wrong encoding: 'UTF-8'

File was loaded in the wrong encoding: ‘UTF-8’ 错误分析:当我们打开一个文件,可是中文出现乱码,这是可能因为我们文件使用UTF-8进行编辑,而Windows默认使用GBK编码格式,所以导致打开文件时出现乱码 解决方法一:在打开的文本中解决(治标不治本...

2018-10-17 18:40:43

阅读数 7161

评论数 0

Python异常:TypeError: a bytes-like object is required, not 'str'

Python异常:TypeError: a bytes-like object is required, not ‘str’ import json str = [{"userName" : "UserPython&a...

2018-10-17 18:10:50

阅读数 275

评论数 0

Python_JSON

文章目录常用方法 Python对JSON文件的操作分为编码和解码,通过JSON模块来实现。编码过程是把Python对象转换成JSON对象的一个过程,常用的两个函数是dumps和dump函数。两个函数的唯一区别就是dump把Python对象转换成JSON对象,并将JSON对象通过fp文件流写入文件中...

2018-10-17 16:28:47

阅读数 38

评论数 0

Python_文件操作

文章目录简介文件对象常用方法与属性 简介 数据库文件、图像文件、音频和视频文件、可执行文件、Office文档、动态链接库文件等,都以文件的形式存储在不同的存储设备(如磁盘、U盘、光盘、云盘等)上,按文件中数据的组织形式可以把文件分为文本文件和二进制文件两大类 文本文件 文本文件存储的是常规字符串,...

2018-10-16 09:42:28

阅读数 53

评论数 0

Python爬虫_BeauifulSoup

文章目录简介BeautifulSoup的使用对象种类 简介 BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库,他能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方式。 安装BeautifulSoup、lxml pip install beautifu...

2018-10-14 19:48:35

阅读数 34

评论数 0

Python爬虫_Requests

文章目录响应与编码 响应与编码

2018-10-13 18:33:12

阅读数 55

评论数 0

Python爬虫_乱码、转码

文章目录乱码问题描述利用encode和decode解决乱码问题 乱码问题描述 在爬取网页时,出现中文乱码情况,如下图: 原因:源网页编码和爬取下来后的编码格式不一致 利用encode和decode解决乱码问题 字符串在python内部的表示是Unicode编码,在做编码转换时...

2018-10-13 11:34:02

阅读数 364

评论数 0

MySQL_管理与维护

文章目录数据库的用户管理数据库用户的权限管理 数据库的用户管理 MySQL的用户管理 MySQL用户可以分为普通用户和root用户 root用户是超级管理员,拥有所有权限 普通用户只拥有被授予的各种权限 MySQL用户管理的相关内容 权限表 MySQL服务器通过权限表来...

2018-10-10 22:18:38

阅读数 133

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭