![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
gentle...
悟已往之不谏,知来者之可追。
展开
-
python中cmd命令台从txt文件中读取文本,输出文本前有一个小框框。
python中cmd命令台从txt文件中读取文本,输出文本前有一个小框框。 解决方法:原创 2019-02-13 16:07:34 · 1861 阅读 · 0 评论 -
利用requests 和 BeutifulSoup 爬取猫眼电影排行信息
利用requests 和 BeutifulSoup 爬取猫眼电影排行信息原创 2019-03-08 21:00:12 · 410 阅读 · 0 评论 -
利用朴素贝叶斯算法实现新闻敏感词的屏蔽功能
利用朴素贝叶斯算法实现新闻敏感词的屏蔽功能 敏感词检测步骤: 1.分词:对获取的评论进行分词处理,采用的是jieba分词 2.去除无意义词:采用的是哈工大的词表,遍历每一条评论,判断是否在无用词表(这里主要包含特殊字符,标点符号,感叹词等)中,从而达到去除无意词的效果 3.通过评论建立自己的词库,采用并集处理,达到词库中词的唯一性 4.建立向量:将去除无意词后的评论装换成稀疏矩阵,采用的是多项式模...原创 2019-06-09 11:23:43 · 1966 阅读 · 11 评论 -
KNN算法分类
KNN算法分类 步骤: 1.导入数据 2.打乱数据集 3.划分训练集和测试集 4.构建模型 5.测试精度 说明: 前一部分为自己搭建的模型,后一部分调用内置接口 强调: 这里需要对数据集归一化处理,不然精确度只有百分之八十左右,归一化处理后可以达到百分之九十五以上。 这里采用的是均值方差归一化。 链接: https://pan.baidu.com/s/1oSVcBYqsCspmSNZMCIIv4Q...原创 2019-06-09 12:53:23 · 466 阅读 · 0 评论 -
Selenium驱动firefox爬取今日头条并存放在MySQL数据库中
Selenium驱动firefox爬取今日头条 前提: 1.安装selenium包:pip install selenium 2.安装MySQL数据库,并下载Navicat可视化工具 Navicat可视化工具链接: https://pan.baidu.com/s/1xOzg2Rp9L4LVv15QmRkqbQ 提取码: 1ck5 3.下载Firefox驱动器 注意: 这里要保证Firefox、ge...原创 2019-06-09 14:07:25 · 888 阅读 · 1 评论 -
Scrapy基础介绍
1.官方图解 2.Scrapy框架的使用: #创建一个爬虫项目 scrapy startproject 项目名称 #在项目中创建爬虫文件 scrapy genspider 爬虫文件名称 爬取网站域名 如:创建一个项目叫做 firstScrapy scrapy startproject firstScrapy 然后在项目中创建爬虫文件 scrapy genspider Baidu baidu...原创 2019-07-06 18:39:23 · 177 阅读 · 0 评论