爬虫
晨风中的沙
这个作者很懒,什么都没留下…
展开
-
Beautifulsoup去除特定标签
最近写新闻爬虫,有时候会出现奇怪的格式。比如script乱入,然后对于爬取到的信息会增加许多干扰。查询相关知识后发现,这里可以使用Beautifulsoup的功能来剔除掉特定标签。 soup = BeautifulSoup(r.text, "lxml") #去除soup里面的script和style标签 [s.extract() for s in soup('script')]转载 2017-11-18 18:07:15 · 11904 阅读 · 0 评论 -
python数字字符串左侧补零
因为做新闻爬虫,url里面0-9的日期要左侧加零。经过查询之后得到了两种方法。 一、先设一个足够大的数,比如1000000,然后加上当前的数字比如9,得到1000009,然后转化为字符串获取第6、7位即可。下面以1000为例。 k=1000 #k是用来获取01 02 03 字符串的 1001 截取第三四位 即可 for i in range(1,31): strtime=i原创 2017-11-23 21:09:36 · 8697 阅读 · 0 评论