python3爬虫
妖白
0 0 -
展开
-
python3 BS4 BeautifulSoup 解析的一些解析(迷惑点)
1 BeautifulSoup只要目标信息的旁边或者附近有标签就可以调用 ,,不用管是几层标签(父辈 后代辈 的都可以)。Soup.html.body.h1Soup.body.h1Soup.html.h1Soup.h1索引的效果都是同一个内容。但是应该把重要的标签包含进去,以免过于简单爬到不想要的内容。2 在这里的li原创 2017-11-08 15:38:14 · 7565 阅读 · 1 评论 -
python3 爬虫面对如此多重复的标签,应该怎么爬才能爬到自己需要的信息
我们知道 利用BeautifulSoup解析网页可以根据树以及各个标签来爬去 ,但是有个问题我们不能忽略,比如1 BeautifulSoup只要目标信息的旁边或者附近有标签就可以调用 ,,不用管是几层标签(父辈 后代辈 的都可以)。Soup.html.body.h1Soup.body.h1Soup.html.h1Soup.h1原创 2017-11-09 11:10:02 · 34348 阅读 · 5 评论 -
python 中re库(正则表达式)的一些困惑解疑
正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。疑惑1:首先要明确re库中的普通字符,特殊字符(元字符)以及打印字符。1普通字符一般为所有的大写和小写字母字符,所有数字,所有标点符号以及一些符号。非打印字符:主要包括一些换行符,换页符,空白原创 2017-11-03 09:25:15 · 337 阅读 · 0 评论 -
requests.get为什么得到的内容和查看源文件不一样?
由于初学爬虫 尝试着在beausoup库和re正则间来回爬去加强对两种方法的理解 但是利用正则的时候出现了一个这么个问题源文件打开 找到的元素 在requests.get竟然没有 虽然很简单的一个问题 但是困扰了我半个多小时 这里吧一些经验总结下来 避免少走弯路拿最简单的静态 贴吧为例我们打开url: http://tieba.baidu.com/i/i/fan原创 2017-12-01 10:20:29 · 32659 阅读 · 20 评论