python
文章平均质量分 74
hastings2k
这个作者很懒,什么都没留下…
展开
-
Python day1
安装Python环境。不知道下的东西对不对 看教程,据说以后会用IDLE、Sublime Text、Pycharm和Anaconda。其中后两个分别是用于游戏和数据分析。 class1 网络爬虫与信息获取 class1.1 requests库的安装 requests库和robots.txt ——上来就是问题,安装requests应该找到pip.exe文件所在的目录原创 2017-03-09 18:19:23 · 339 阅读 · 0 评论 -
python学习 day2
robots.txt 如果不修改头信息,requests库会把自己是爬虫的信息放到头信息里,这样可能会导致有些网站的阻拦。针对方法是修改头信息(或者应该把自己伪装成一个浏览器?) kv = {'user-agent':'Mozilla/5.0'} r= requests.get(url,headers=kv) 另外,检查已有的requests库头信息的代码是 r.request.h原创 2017-03-13 20:41:59 · 200 阅读 · 0 评论 -
python day3
网络爬虫第二周 W2.1 Beautiful Soup库安装 使用BeautifulSoup库 from bs4 import BeautifulSoup #BeautifulSoup是一个类 soup = BeautifulSoup("html格式的代码","html.parser") #两个参数:一个是要解析的代码;另一个是解析器——BeautifulSoup有四个解析器原创 2017-03-16 21:03:04 · 166 阅读 · 0 评论 -
python day4
昨天干,今天写。 BeautifulSoup库有一个类似JavaScript的遍历方法。具体代码一定类似 除了xml和json,今天听说了一种新的文本格式——yaml,看上去比json更简洁一些 昨天的重点:soup库中的find_all()方法 要使用bs.element.Tag这样的常量,就要使用import bs4 而不是像之前的 from bs4 i原创 2017-04-14 21:07:25 · 221 阅读 · 0 评论