用python爬取东方财富网网页信息_爬取东方财富网数据的网页分析

自学Python已有3个月之多,浏览无数大神的佳作,收获颇丰。当初自学python就是为了学习爬虫,爬取网站上好看妹子的图片……[流口水][流口水]

言归正传,近期学习量化交易知识,发现东方财富网(eastmoney.com)提供的特色数据相当不错,在投资组合页面,看看周冠军,月冠军等排行榜上那诱人的红色数字,那要是我的操作该有多好啊。

东方财富网投资组合首页

后来一想,我可以把每周的排行榜爬取下来,选出比较厉害的人,跟踪学习别人的操作,那我是不是也可以在A股中分一杯羹呢?想想就诱人……

月度高手排行榜

说干就干,先分析下网页,点开月度高手页面,来到投资组合排行榜。在chorme浏览器中打开网页调试工具(按F12即可),重新加载页面,看到如下图所示

月度高手排行榜分析页面

在调试工具中,选择JS,可以看到网页加载过程中的各种数据。每个页面点开,也没发现什么有价值的信息。最后在Private_Rank_Sort.js的页面中发现url信息的蛛丝马迹,如上图红方框和红色箭头所指部分。这个url是不是我要找的排行榜的页面呢?于是保存Private_Rank_Sort.js页面,查看JS代码。

URL信息的组合

查看js代码,发现GetDat函数中的这个URL是由几部分组成,中间有两个变量type和callbackName。分析上下文可以看出callbackName是由字符串“CallBack”+type+8位随机数组成。那type变量的结构就是关键了,找到了type,整个URL的信息就能拼凑出来。继续在该文件中查找,在尾部发现这么一句:

var type=$(this).attr("sortvalue")

再后面是调用GetDat(type)函数

JS代码分析type

总算是找到type的出处了,那他的具体赋值呢。于是又开始搜索网页,最后再网页源码中找到了“sortvalue”属性的数据。如下图

网页源码

原来type=8101、8102、8104、8105、8106、8107分别代表不同的意思(怎么没有8103呢,我也不知道,不管它了,继续正题……)

取type一个值 8102 日收益吧,把URL拼凑出来

URL完整信息

把拼凑号的url地址复制到浏览器地址栏,回车。见证奇迹的时刻到了……

网站返回结果

一个Json结构的数据,拿来和网页对比一下,很容易猜出字典中Key的含义。

至此万里长征的第一步总算走完了,后面就可以用python中requests模块Get数据了。

总结:

1、分析网页最重要的是要先找到url地址。之后再去弄懂各个参数的具体含义,扩展获取更多的数据。

2、分析过程中要细心,有耐心,多用 查找 功能。找不到了再到网页源码中看看,说不定会有意想不到的收获。

3、异步加载数据的网页,一般在JS或XHR中取找url

4、善用web浏览器中的工具插件,我用的chrome浏览器,它的网页调试工具很好用,还有很多扩展插件,比如JSON-handle把json数据理清层次结构,CrapApi方便GET、POST各种带参数的url地址,即时查看返回数据,分析参数的作用

最后再说一下,我把爬取下来的排行榜数据进行筛选,选出几个活跃度高,周月年收益较高的,实时跟踪其调仓动作,跟买跟卖,收益还可以的,不得不佩服高手就是高手。哈哈

上张运行界面图

跟踪程序运行界面

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
引用: 东方财富股吧是一个提供股票相关讨论的平台,您可以通过Python进行爬取其发贴数据。根据引用中的描述,您可以使用Python爬取东方财富股吧的帖子信息,包括股吧名称、阅读量、评论数、标题、作者和发帖时间。具体的步骤如下: 1. 使用Python络爬虫库(例如BeautifulSoup或Scrapy)访问东方财富股吧站,并获取页面的HTML内容。 2. 使用HTML解析库(例如BeautifulSoup或lxml)解析HTML内容,提取出帖子信息,例如股吧名称、阅读量、评论数、标题、作者和发帖时间。 3. 将提取的帖子信息存储到一个数据结构(例如列表或字典)中,方便后续的分析和处理。 引用中提到了探索更复杂的实际案例,并通过实际项目提升数据分析能力。因此,对于您的需求,您可以进一步扩展爬取的功能,例如分析帖子的情绪指数、研究帖子的亮点回顾等,以获得更深入的数据分析结果。 最后,引用中给出了一个跨年份取月份对应时间戳的问题的解决方法。虽然这段代码与您的问题关系不大,但它提供了一个示例,展示了如何使用Python对时间进行处理和计算。 希望以上信息对您有所帮助!<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [东方财富股吧标题爬取分析](https://blog.csdn.net/kun666666/article/details/115222647)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [Python数据分析入门:掌握基本工具与技巧.md](https://download.csdn.net/download/pleaseprintf/88229437)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值