Python
piaopiaopiaopiaopiao
这个作者很懒,什么都没留下…
展开
-
Python爬虫之xpath的基本使用(解析HTML详细介绍)
1.XPath介绍XPath,全称 XML Path Language,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言。最初是用来搜寻 XML 文档的,但同样适用于 HTML 文档的搜索。所以在做爬虫时完全可以使用 XPath 做相应的信息抽取。2. XPath 概览XPath 的选择功能十分强大,它提供了非常简洁明了的路径选择表达式。另外,它还提供了超过 100 个内建函数,用于字符串、数值、时间的匹配以及节点、序列的处理等,几乎所有想要定位的节点都可以用 XPath 来选择。转载 2021-10-02 21:29:29 · 241 阅读 · 0 评论 -
Python正则表达式中的re.S,re.M,re.I的作用
正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。多个标志可以通过按位 OR(|) 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志:修饰符 描述 re.I 使匹配对大小写不敏感 re.L 做本地化识别(locale-aware)匹配 re.M 多行匹配,影响 ^ 和 $ re.S 使 . 匹配包括换行在内的所有字符 re.U 根据Unicode字符集解析字符。这个标志影响 \w, \W, \b,转载 2021-10-02 11:26:36 · 293 阅读 · 0 评论 -
解析正则表达式中的.*,.*?,.+?的含义
1. .*.表示匹配除换行符 \n 之外的任何单字符,*表示零次或多次。所以.*在一起就表示任意字符出现零次或多次。没有?表示贪婪模式。比如a.*b,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab的话,它会匹配整个字符串aabab。这被称为贪婪匹配。又比如模式src=`.*`, 它将会匹配最长的以src=`开始,以`结束的最长的字符串。用它来搜索<img src=``test.jpg` width=`60px` height=`80px`/>时,将会返回s...转载 2021-10-02 11:25:45 · 427 阅读 · 0 评论 -
详解Python中字符串前“b”,“r”,“u”,“f”的作用
1、字符串前加 u例:u"我是含有中文字符组成的字符串。"作用:后面字符串以 Unicode 格式 进行编码,一般用在中文字符串前面,防止因为源码储存格式问题,导致再次使用时出现乱码。2、字符串前加 r例:r"\n\n\n\n” 表示一个普通生字符串 \n\n\n\n,而不表示换行了。作用:去掉反斜杠的转移机制。(特殊字符:即那些,反斜杠加上对应字母,表示对应的特殊含义的,比如最常见的”\n”表示换行,”\t”表示Tab等。 )应用:常用于正则表达式,对应着re模块。转载 2021-10-02 10:32:21 · 1306 阅读 · 0 评论 -
正则表达式详解
正则表达式由一些普通字符和一些元字符(metacharacters)组成。普通字符包括大小写的字母和数字,而元字符则具有特殊的含义,我们下面会给予解释。 在最简单的情况下,一个正则表达式看上去就是一个普通的查找串。例如,正则表达式"testing"中没有包含任何元字符,它可以匹配"testing"和"123testing"等字符串,但是不能匹配"Testing"。 要想转载 2015-01-02 22:08:05 · 407 阅读 · 0 评论 -
pythonwin安装出错
pywind3.4安装后没有出现快捷方式,到安装文件夹“D:\Python34\Lib\site-packages\pythonwin”找到“Pythonwin.exe”执行后报如下错误:"the application can not locate win32ui.pyd(or Python)(126)找不到指定的模块。"解决方法:在cmd执行python d:/Python34转载 2015-01-04 10:49:33 · 2729 阅读 · 0 评论