Python爬虫股票评论，snowNLP简单分析股民用户情绪（草稿）

最新推荐文章于 2024-05-23 13:15:52 发布

SeaIsGod

最新推荐文章于 2024-05-23 13:15:52 发布

阅读量1.4w

点赞数 9

分类专栏： python，个人练手项目，爬虫文章标签：项目 NLP 爬虫 python

本文链接：https://blog.csdn.net/SeaIsGod/article/details/72859071

版权

一、背景

股民是网络用户的一大群体，他们的网络情绪在一定程度上反映了该股票的情况，也反映了股市市场的波动情况。作为一只时间充裕的研究僧，我课余时间准备写个小代码get一下股民的评论数据，分析以下用户情绪的走势。这个博客还会修改，因为结果不准确，哈哈！

二、数据来源

本次项目不用于商用，数据来源于东方财富网，由于物理条件，我只获取了一只股票的部分评论，没有爬取官方的帖子，都是获取的散户的评论。

三、数据获取

Python是个好工具，这次我使用了selenium和PhantomJS组合进行爬取网页数据，当然还是要分析网页的dom结构拿到自己需要的数据。

爬虫部分：

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
'''
Created on 2017��5��17��
@author: luhaiya
@id: 2016110274
@description:
'''
from selenium import webdriver
import time
import json
import re  
# from HTMLParser import HTMLParser 
from myNLP import *
# from lxml import html
# import requests
class Crawler:
    url = ''
    newurl = set()
    headers = {}
    cookies = {}
    def __init__(self, stocknum, page):
        self.url = 'http://guba.eastmoney.com/list,'+stocknum+',5_'+page+'.html'
        cap = webdriver.DesiredCapabilities.PHANTOMJS
        cap["phantomjs.page.settings.resourceTimeout"] = 1000
        #cap["phantomjs.page.settings.loadImages"] = False
        #cap["phantomjs.page.settings.localToRemoteUrlAccessEnabled"] = True
        self.driver = webdriver.PhantomJS(desired_capabilities=cap)
    def crawAllHtml(self,url):
        self.driver.get(url)
        time.sleep(2)
#         htmlData = requests.get(url).content.decode('utf-8')
#         domTree = html.fromstring(htmlData)
#         return domTree
    def getNewUrl(self,url):
        self.newurl.add(url)
    def filterHtmlTag(self, htmlStr):
        self.htmlStr = htmlStr  
        #先过滤CDATA  
        re_cdata=re.compile('//<!CDATA\[[^>]*//\]>',re.I) #匹配CDATA  
        re_script=re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*>',re.I)#Script  
        re_style=re.compile('<\s*style[^>]*>[^<]*<\s*/\s*style\s*>',re.I)#style  
        re_br=re.compile('<br\s*?/?>')#处理换行  
        re_h=re.compile('</?\w+[^>]*>')#HTML标签  
        re_comment=re.compile('<!--[^>]*-->')#HTML注释  
        s=re_cdata.sub('',htmlStr)#去掉CDATA  
        s=re_script.sub('',s) #去掉SCRIPT  
        s=re_style.sub('',s)#去掉style  
        s=re_br.sub('\n',s)#将br转换为换行  
        blank_line=re.compile('\n+')#去掉多余的空行  
        s = blank_line.sub('\n

最低0.47元/天解锁文章

SeaIsGod

关注

9
点赞
踩
78

收藏

觉得还不错? 一键收藏
5
评论
Python爬虫股票评论，snowNLP简单分析股民用户情绪（草稿）

一、背景股民是网络用户的一大群体，他们的网络情绪在一定程度上反映了该股票的情况，也反映了股市市场的波动情况。作为一只时间充裕的研究僧，我课余时间准备写个小代码get以下股民的评论数据，分析以下用户情绪的走势。这个博客还会修改，因为结果不准确，哈哈！二、数据来源本次项目不用于商用，数据来源于东方财富网，由于物理条件，我只获取了一只股票的部分评论，没有爬取官方的帖子，都是获
复制链接

扫一扫