看了网友用Python通过影评来分析电影是好片还是烂片,自己也有了个想法想去分析下百度贴吧的帖子是精品帖子还是水帖子。目前正在熟悉工具的使用。
会用到的库:Selenium, pandas(数据模型),jieba(分词器),snownlp(情感分析),worldcloud(生成词云)
1.pycharm安装 Selenium,pandas与numpy库,均使用pip来自动安装
pip install —U selenium
pip install pandas //pandas一般与numpy库一起安装
2.Selenium 浏览器驱动
Firefox浏览器需安装geckdriver.exe
Chrome浏览器需要安装chromedriver.exe
IE浏览器要安装IEdriver.exe
可以到官网下载浏览器驱动:http://www.seleniumhq.org/download/
均放在python27的scripts目录下
3.通过元素查看器查找页面元素
这里使用的Firefox浏览器自带的元素查找器
这样就可以比较简便的获取所需要用到页面的元素
4.selenium基础用法
(1)访问页面
#_*_coding: utf-8_*_
from selenium import webdriver
browser=webdriver,Firefox() #声明浏览器对象
browser.get("www.baidu.com")
print(browser.page_source) #获取页面渲染后的源代码
browser.close
(2)元素选取
单个:
- find_element_by_id
- find_element_by_name
- find_element_by_xpath
- find_element_by_link_text
- find_element_by_partial_link_text
- find_element_by_tag_name
- find_element_by_class_name