python
liutaiyi8
这个作者很懒,什么都没留下…
展开
-
python爬虫基础
一 什么是爬虫 通常爬虫是从某个网站的某个页面开始,爬取这个页面的内容,找到网页中的其他链接地址,然后从这个地址爬到下一个页面,这样一直不停的爬下去,进去批量的抓取信息。那么,我们可以看出网络爬虫就是一个不停爬取网页抓取信息的程序。 二 爬虫的基本流程 1,发起请求 向目标站点发送一个Requests请求,包括额外的headers,...原创 2018-07-31 09:20:21 · 172 阅读 · 0 评论 -
什么是BeautifulSoup
一 BeautifulSoup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。 它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。利用它我们不在需要编写正则表达式就可以方便的实现网页信息的提取。...原创 2018-08-01 15:08:46 · 4649 阅读 · 0 评论 -
python中append函数和extend函数的区别
append() 方法用于在列表末尾添加新的对象。 extend() 函数用于在列表末尾一次性追加另一个序列中的多个值(用新列表扩展原来的列表) append()方法实例: 只是在lista后面添加相应字符: 使用append()添加一个字符串list append把list添加进lista,是内容之间的拼接 而extend()是把list里面的字符添加到lista里面: ...原创 2018-08-02 15:02:54 · 8553 阅读 · 0 评论 -
sys.stdin/sys.stdout
调用 print 时候,事实上是调用了 sys.stdout.write(obj+’\n’) sys.stdout.write('hello'+'\n') print 'hello' 这两个语句是等价的。 raw_input(‘Input promption: ‘) 时,事实上是先把提示信息输出,然后捕获输入 这两行语句是等价的: hi=raw_input('hello? ') p...原创 2018-08-03 16:12:47 · 148 阅读 · 0 评论 -
Python爬取TripAdvisor
直接上代码: #爬取tripadvisor纽约市酒店超值排名 #引入requests 获取html文件,才能从html获取信息 import requests #利用BeautifulSoup解析文件,获取想要的到的数据 from bs4 import BeautifulSoup #这段代码只用在获取等待,避免频繁访问ip被封禁 import time #url = 'https://www...原创 2018-08-08 22:38:41 · 1759 阅读 · 0 评论