python
文章平均质量分 70
杨小事er
这个作者很懒,什么都没留下…
展开
-
python爬虫之BeautifulSoup入门
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间. 中文文档:http://beautifulsoup.readthedocs.io/zh_CN/latest/原创 2016-10-06 20:57:18 · 735 阅读 · 0 评论 -
requests和bs4的python爬虫入门
现在就简单的讲下这几个月的学习成果嘛~~~ 爬虫其实爬的都是源代码,然后再通过对源代码进行过滤,得出我们想要的东西~ 有时会需要一些正则的东西~ 比如一些文本啊,图片的src啊,链接的href啊~~ 这里面有一些lazyload的图片,就需要 selenium webdriver 什么的了,这个还没研究到哈,勿喷勿喷。 上面的答案也有提到过,用requests和bs4写爬虫真的是傻瓜原创 2016-10-18 20:35:31 · 18277 阅读 · 0 评论 -
python3.x的urllib.request哪去了?
最近看一些python爬虫视频教程,视频中的版本是3.x,而里面的一些方法在2.7的版本却用不了。 这里就先不累述python2和python3的具体区别了,就单纯写爬虫中遇到的区别,比如说urllib库。 urllibPython 2 namePython 3 name urllib.urlopen() Deprecated. See urllib.request.urlopen(原创 2016-10-07 21:06:23 · 4835 阅读 · 0 评论 -
搭建一个django+react的博客
最近还没找到工作,就在学校磨练下自己的技术,之前搭了一个django的爬虫数据展示网站, 不过没做到前后端分离,项目在这https://github.com/Yangzhedi/spiderwebsite。 因为之前在的公司是用react在做项目,所以打算用react+django搭建一个前后分离的博客。 这样各玩各的,互相的干扰做到最小,只有之间数据的连接。 这个blog的项目在这htt原创 2016-10-31 16:22:08 · 10290 阅读 · 1 评论 -
利用bs4和requests爬取股票历史交易数据
最近在学习优达学院的一门机器学习的课程,主要讲解利用机器学习分析股票数据,然后。课程网址在这里:https://classroom.udacity.com/courses/ud501 所以需要大量的股票数据,我就先百度了一下,发现网易财经的数据很全,暴露的也很好,所以的数据都是放在一个标签中, 所以我就决定爬网易财经了,开始着手写爬虫。 首先,是构造url。 假如我要查询中国石油(原创 2016-11-18 15:56:41 · 5692 阅读 · 1 评论 -
yangzhedi.com代码开源啦~~
yangzhedi.com源码 yzd的个人网站:www.yangzhedi.top 一个前端React后端Django的简易网站模版, blog功能和股票爬虫功能已经大体实现,其余功能还在更新中。更新日记 2016.10.30 网站上线,并托管在github上,Yangzhedi/myBlog,前后端分离,前端选用React框架,后端采用Django框架,数据库是django框架自带数据原创 2017-02-15 01:24:32 · 526 阅读 · 0 评论