Python
文章平均质量分 77
Xiaozhu_a
全力以赴, 你会很酷!
展开
-
jiaba库之关键词提取(增量更新自定义语料)
一、提取语句关键词在自然语言处理中,经常会遇见对文章或者信件进行关键词提取。而jiaba库正给我们提供了两种简单的关键词提取方法(TF-idf与TextRank)。本文不讲这两方式提取关键词的原理,只注重如何实现。在Python中,短短四个语句就能实现关键词的提取,我们所使用的文本数据为《红楼梦》中的某个章节。第二回 贾夫人仙逝扬州城 冷子兴演说荣国府 诗云 一局输赢料不真,香销茶尽尚...原创 2018-11-14 22:33:54 · 5210 阅读 · 2 评论 -
TensorFlow中的损失函数
分类问题和回归问题是监督学习的两大种类,本文将分别介绍分类问题和回归问题中使用到的经典损失函数以及根据实际情况所自定义的损失函数。同时注意损失函数定义的是损失,所以要将利润最大化,定义损失函数应该刻画成本或者代价。在实际情况中,可以根据具体问题自定义损失函数。一、经典损失函数1、分类问题1.1、交叉熵简介机器学习中,在解决二分类的情况时,可以通过设置一个阈值,大于阈值的认为是一类,小于阈...原创 2018-11-20 19:36:56 · 509 阅读 · 0 评论 -
Python 时间提取并格式化处理
在进行文本预处理的过程中,有时候需要将文本中的日期数据提取出来并将其按照一定的格式标准化,进而进行比较大小之类的操作。1、日期提取在文本中日期呈现的方式各种各样,如:2018.12.2、2018.12.02、2018-12-2、2018-12-02、201/12/2、二零一八年十二月二日、2018年12月2日 等等,我们可以利用正则表达式将其提取出来。假设存在如下文本数据,我们需要提取文中...原创 2018-12-02 11:50:32 · 7912 阅读 · 0 评论 -
Python常见问题汇总
1、返回列表最大元素的索引2、将列表元素去重并保持原有顺序3、数据框指定位置添加列4、获得某个文件夹下所有文件名称(包括子文件夹内的文件)5、6、7、8、9、10、...原创 2019-03-25 16:17:05 · 313 阅读 · 0 评论 -
Python连接MySQL数据库
尽管很多 NoSQL 数据库近几年大放异彩,但是像 MySQL 这样的关系型数据库依然是互联网的主流数据库之一,每个学 Python 的都有必要学好一门数据库,不管你是做数据分析,还是网络爬虫,Web 开发、亦或是机器学习,你都离不开要和数据库打交道,而 MySQL 又是最流行的一种数据库,这篇文章介绍 Python 操作 MySQL 的几种方式。一、通过pymysql进行连接数据库的访问无非...原创 2019-04-11 20:47:46 · 481 阅读 · 0 评论 -
os.path.abspath(__file__)与os.path.dirname()以及os.path.basename(__file__)的用法详解
1、os.path.abspath(_file_)os.path.dirname(_file_)返回脚本的绝对路径原创 2019-04-09 18:28:37 · 16665 阅读 · 0 评论 -
pandas.get_dummies (独热编码)详解
dummiesNewData = pandas.get_dummies(newData,columns=[‘症状’],prefix=[‘症状’],prefix_sep=’_’) # 注意陷阱哇 在给新的观测数据进行转换时,一定要加上下面的代码newData[‘症状’] = newData[‘症状’].astype(‘category’,categories=data[‘症状...原创 2019-04-24 09:42:36 · 21551 阅读 · 7 评论 -
爬虫常见问题汇总
1、webdriver.Chrome设置无界面模式from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionschrome_options = Options()chrome_options.add_argument('--headless')driver = webdriver....原创 2019-06-29 17:51:59 · 1324 阅读 · 0 评论