![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 58
qq_31258245
中南大学学生
展开
-
Python爬虫之从网站图片中抓取文字
本程序采用selenium和phantomjs爬取亚马逊图书详情页面,并且使用Tesseract OCR识别图书大图上的文字。 程序模拟了我们在浏览器上的操作过程。点击下方会触发页面的js弹出模态框,此时页面的dom会增加,然后点击模态框右边的图片可以进行切换,模态框上左边的图片会跟着进行变换。通过获取模态框左边的图片然后用OCR技术识别图片上的文字。 实现代码如下:import time原创 2017-12-08 15:55:23 · 6697 阅读 · 1 评论 -
Python实现文章自动生成
Python实现文章自动生成 下面的Python程序实现了通过从网页抓取一篇文章,然后根据这篇文章来生成新的文章,这其中的原理就是基于概率统计的文本分析。 过程大概就是网页抓取数据->统计分析->生成新文章。网页抓取数据是通过BeautifulSoup库来抓取网页上的文本内容。统计分析这个首先需要使用ngram模型来把文章进行分词并统计频率。因为文章生成主要依据马尔可夫模型,所以使用了2-g原创 2017-12-07 17:42:31 · 29479 阅读 · 11 评论