自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

陈海鹏的博客

探知可自娱,明理以博施。

  • 博客(3)
  • 收藏
  • 关注

原创 获取全球各大证券交易所的全部股票交易信息

幻想过这样的两种能力,一是回到过去,二是预见未来。时间逆转回到过去,这更多的是在文艺作品中能够出现的情节。而预见未来,我们正在努力,希望可以更准确地预见更长时间内更多的细节。例如在瞬息万变的股票交易市场中,我们可能会利用NLP来判断股市舆情,或者借助机器学习的方法来预测股市行情大势,又或者可以通过大数据找出不同股票间的隐性关联,从而获取正确的投资策略。而实现这一切,都需要大量数据来支撑我们的试验,在

2017-03-28 20:43:42 29789 7

原创 Python分布式爬虫前菜(2):关于提取网页源码中特定信息的技巧

前面介绍了不同方法来获取静态和动态各类网页源码,可是我们知道网页源码是夹杂着文字和代码的让人非常眼花缭乱的信息。如何从中提取出有用的信息是一次有意义的爬虫过程中不可避免的问题。这里我们需要快速简洁的工具帮我们完成,其中就有re,BeautifulSoup和XPath等优秀代表。闲话不说,直接进入主题:(一)re(regular expression operations),即我们常说的正则表达

2017-03-06 16:07:34 15535 3

原创 Python分布式爬虫前菜(1):关于静态动态网页内容获取的N种方法

爬虫是快速获取我们需要的数据的一个有效途径,而第一步便是要请求远方服务器为我们返回对应的网页信息。我们知道,正常情况下在浏览器上我们只要输入正确的统一资源定位器url,即网页地址便可轻松打开我们想要看到页面。同理,在设计python爬虫程序时,我们也可以调用对应的库通过参数设置来连接网络处理http协议。

2017-03-02 23:47:57 18475 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除