碧空之戈-CSDN博客

原创查看TensorFlow版本与路径

import tensorflow as tftf.__version__tf.__path__

2021-06-26 12:56:35 288

原创 Linux之find命令详解

find：在指定目录下查找文件忽略大小写,使用inamelsfan Fan FANfind -name 'fan' ./fanfind -iname 'fan'./Fan./fan./FAN对查找的文件目录做深度限制,使用-mindepth -maxdepthfind /usr -mindepth 3 -maxdepth 4 -name 'passwd'查找指...

2019-06-02 10:49:52 690

原创 hive内部表与外部表

假设已经进入hive的环境。有一张叫做test的表展示所有的数据库，show databases;展示所有的表，show tables；查看表结构，尤其是查看表的字段类型：desc test；查看表存贮，show create table test;删除表内容，保留表结构，truncate table test;删除一张表，drop table test;内部表&外部表...

2019-06-02 10:48:50 342

原创 Git 常用操作

查看历史记录git log 从最近到最远的3次提交日志，信息全git log --pretty=oneline 查看提交历史版本回退git reset --hard HEAD^ 回退到上一个版本git reset --hard 版本号回退到指定版本号git reflog 重返未来，查看命令历史撤销修改只修改了工作区：git checkout --file已经添加到了暂...

2019-06-02 10:40:04 248

转载 Mac 的usr/bin 以及usr/local/bin

Mac的这个bin目录，是一个已经包含在环境变量里的目录，程序放在里面或者链接到里面就可以在终端里直接执行。Mac的usr/bin目录是不允许增删文件的，可以通过向usr/local/bin增删文件来实现在终端里直接运行，往后者里面增删文件只要有管理员权限就可以了。...

2019-03-23 22:26:43 7899

原创远程服务器连接本地Mysql

前段时间，为了测试，想把远程的一台服务器连上自己本地的sql,鼓捣了一天，最后还是失败了，原因在于远程的服务器是需要通过堡垒机跳转的，无法直接连接本地的数据库。记录一下正常的流程，连接不上的话应该检查哪些步骤。1.先看在远程服务器上能否ping通本机的IP地址，ping 192.168.1.211，如果不可以就是网络问题2.检查3306端口是否打开，netstat -anlp |...

2019-02-01 14:48:01 3544 1

转载 shell命令执行hive脚本

HIve的执行命令方式有三种：链接：https://blog.csdn.net/longshenlmj/article/details/50542683

2019-01-31 22:45:38 2295

在Linux中，cat -A file可以把文件中的所有可见的和不可见的字符都显示出来，在Vim中，如何将不可见字符也显示出来呢？当然，如果只是想在Vim中查看的话，可以这样:%!cat -A在Vim中调用cat转换显示。这样的做法不便于编辑，其实Vim本身是可以设置显示不可见字符的。只需要:set invlist即可以将不可见的字符显示出来，例如，会以^I表示一个tab符，$表示一个回车符等...

2019-01-21 14:49:07 2611

原创 Vim常用技巧--查看文件编码格式

使用vim打开文件，:set fileencoding 查看编码格式。发现我的文件是Latin1，我需要的是utf-8。所以使用:set fileencoding=utf-8 进行编码转换。#查看文件编码:set fileencoding#修改为utf-8:set fileencoding=utf-8 保存。生效。...

2019-01-21 14:44:56 5790

转载看例子学sed

链接地址http://qinghua.github.io/sed/

2019-01-21 14:00:06 160

原创 Word2vec词向量工具带你发现不一样的《天龙八部》

词向量技术是将词语转化成为稠密向量。在自然语言处理应用中，词向量作为机器学习、深度学习模型的特征进行输入。因此，最终模型的效果很大程度上取决于词向量的效果。Word2vec 是 Google 在 2013 年开源的一款将词表征为实数值向量的高效工具，利用深度学习思想，通过训练，把对文本内容的处理简化为 K 维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。word...

2018-10-17 23:22:50 1354

转载 DataFrame合并超全命名-merge,append,join,concat

python 把几个DataFrame合并成一个DataFrame——merge,append,join,concat 1、merge pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=T...

2018-10-11 19:12:26 3148 1

原创 Jupyter Notebook快捷键与使用技巧

jupyter-notebook快捷键与技巧

2018-10-11 19:02:43 456

原创数据预处理--sklearn preprocessing模块的使用

本文主要介绍sklearn preprocessing四个数据预处理的函数，大概分两类，一是标准化，二是将将数据特征缩放至某一范围。这四个函数都在sklearn preprocessing模块中，无论哪个方法，都是对列进行的操作。一、标准化标准化适用的情况：如果有些特征的方差过大，则会主导目标函数从而使参数估计器无法正确地去学习其他特征，这个时候需要数据标准化，分两步，一是去均值的中心化...

2018-10-10 10:39:21 10479

原创 Anaconda -- C extension not loaded for Word2Vec

用Word2Vec训练词向量时，遇到下面的提示，所用的环境是Anaconda5.3 python3.7UserWarning: C extension not loaded for Word2Vec, training will be slow. Install a C compiler and reinstall gensim for fast training.查阅资料，貌似是ge...

2018-10-07 12:32:52 7997 16

原创 python去掉空白行的两种代码实现

测试代码 jb51.txt1:www.jb51.net 2:www.jb51.net3:www.jb51.net4:www.jb51.net5:www.jb51.net6:www.jb51.net 7:www.jb51.net8:www.jb51.net9:www.jb51.net10:www.jb51.net 11:www.jb51.net12:www.jb51...

2018-10-06 22:46:46 11619

原创 jupyter notebook -- IOPub data rate exceeded.

如图，jupyter notebook出现下面的报错解决方法：在Anaconda Prompt中输入下面的命令jupyter notebook --NotebookApp.iopub_data_rate_limit=2147483647

2018-10-06 22:20:05 2288 3

原创 Pandas进阶操作

记录一些日常用到的偏技巧性的pandas操作返回各列非空值的个数，默认降序排序loans_2007['loan_status'].value_counts()替换为1和0status_replace = { "loan_status" : { "Fully Paid": 1, "Charged Off": 0, } } loans_2007 = loans_2007.replace...

2018-10-05 11:39:39 461

原创 Map,Apply与ApplyMap

以下面的房产数据为例，我们看下Map,Apply与ApplyMap的不同 Map是将函数套用到Series上的每个元素 Apply是将函数套用到DataFrame的行与列 ApplyMap是将函数套用到DataFrame的每个元素 ...

2018-10-04 23:07:01 1324

原创拉普拉斯与高斯分布公式与图像

拉普拉斯分布高斯分布

2018-10-04 11:18:48 7835

原创正则化公式以及L1正则化产生稀疏阵的原因

范数的公式范数是衡量某个向量空间（或矩阵）中的每个向量以长度或大小。范数的一般化定义：对实数p>=1，范数定义如下：L1范数当p=1时，是L1范数，其表示某个向量中所有元素绝对值的和。L2范数当p=2时，是L2范数，表示某个向量中所有元素平方和再开根，也就是欧几里得距离公式。实际应用与选择下面以sklearn里逻辑回归算法为例，具体看下两者的不同...

2018-10-04 11:09:00 5381 1

原创决策树调参说明（DecisionTreeClassifier）

sklearn中决策树算法参数共有13个，如下： class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_fea...

2018-10-03 14:21:26 29372 5

转载决策树原理详解

决策树是机器学习中一种基本的分类和回归算法，是依托于策略抉择而建立起来的树。其主要优点是模型具有可读性，分类速度快，易于理解。决策树的思想主要来源于Quinlan在1986年提出的ID3算法和1993年提出的C4.5算法，以及有Breiman等人在1984年提出的CART算法。1.什么是决策树决策树简单来说就是带有判决规则（if-then）的一种树，可以依据树中的判决规则来预测未知样本的类...

2018-10-03 12:13:27 36062 1

转载逻辑回归参数说明

slearn官网关于LogisticRegression，列出了14个参数，地址如下：逻辑回归官网参数说明根据日常的经验，一般需要调试的是第一个参数penalty，即惩罚项以及通过迭代选择最优的正则化系数c 其他参数如下：penalty：惩罚项，str类型，可选参数为l1和l2，默认为l2。用于指定惩罚项中使用的规范。newton-cg、sag和lbfgs求解算法只支持L2规范...

2018-10-02 13:28:22 4065

原创 python--DataFrame随机抽样

平时工作中，经常遇到随机抽样的需求，可用Pandas库中的sample函数，简单又快捷。官方文档解释在这：sampleDataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)n：要抽取的行数,需为整数值 frac：抽取的比列,需为小数值，比方说我们想随...

2018-10-02 13:25:05 32382 2

转载逻辑回归原理详细推导

1. 基本原理Logistic Regression和Linear Regression的原理是相似的，可以简单描述为以下过程：（1）找一个合适的预测函数（Andrew Ng的公开课中称为hypothesis），一般表示为h函数，该函数就是我们需要找的分类函数，它用来预测输入数据的判断结果。这个过程时非常关键的，需要对数据有一定的了解或分析，知道或者猜测预测函数的“大概”形式，比如是线性函...

2018-10-02 12:07:57 33100 6

原创 pandas基础操作

pandas中最基础的数据结构叫做DataFrame,类似excel中的表结构，包含栏与列的集合，可根据栏与列操作数据，类似R的DataFrame。下面来看一些基础操作，在数据清洗与处理阶段，这些操作需熟练掌握。1.建立DataFrameimport pandas as pd data = pd.DataFrame([['jerry','M',36],['emma','F',23]...

2018-09-22 23:29:13 285

原创 Python drop方法删除列之inplace参数

drop方法有一个可选参数inplace，表明可对原数组作出修改并返回一个新数组。不管参数默认为False还是设置为True，原数组的内存值是不会改变的，区别在于原数组的内容是否直接被修改。默认为False,表明原数组内容并不改变，如果我们需要得到改变后的内容，需要将新结果赋给一个新的数组，即data = data.drop(['test','test2'],1)。如果将inplace值设定为Tr...

2018-09-22 22:58:53 9481

原创 python装饰器

文章开始，讲个偷来的笑话，何为装饰器呢？众所周知，每个人都要穿内裤出门，内裤的作用是用来遮羞，但是如果寒风凛冽的冬天到了，我们想要一件东西来御寒，这个时候，可以选择把内裤拉长然后增加保暖功能，但是这样一来，一是麻烦，二是本来最重要的遮羞功能就要打折扣。那么我们人类是怎么办的呢？我们的选择是重新做一条在外面穿的裤子出来，可以穿在不同内裤的外面。装饰器的作用和刚刚的举例非常像。我们写好了代码，...

2018-09-18 22:46:04 171

原创 NLP之关键词提取

关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来，在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用。关键词提取算法一般分为有监督和无监督两类有监督的关键词提取方法主要是通过分类的方式进行，通过构建一个较为丰富和完善的词表，然后判断每个文档与词表中每个词的匹配程度，以类似打标签的方式，达到关键词提取的效果。优点是精度较高，缺点是需要大批量的标注数据，人工成本过高，并且...

2018-09-12 11:36:52 18445

原创 TensorFlow基础知识整理

数据流图是每个TensorFlow程序的核心，数据流图是一种特殊类型的有向图，在TensorFlow中，数据流图本质上是一组链接在一起的函数。两个基础构件：节点和边节点：在数据流图中，节点通常以圆圈、椭圆和方框表示，代表了对数据所做的运算或某种操作。边：通常以箭头表示，不同Opetation之间的连接，将信息从一个节点传输到另一个节点，对应向Operation传入和从Operation传出...

2018-08-22 22:31:56 353

原创 win7+anaconda3.6安装tensorflow命名行

在 Anaconda Prompt 窗口输入：conda create -n tensorflow python=3.5 激活：activate tensorflow 安装CPU版本：pip install --upgrade --ignore-installed tensorflow 测试是否安装成功： import tensorflow as tf hello = ...

2018-08-22 22:24:15 187

原创 NLP实体命名识别之时间识别

本程序针对的是酒店的预定系统，已经将语音转换为中文文本的情况下，将时间转换为统一的格式输出。我们可能会遇到如“八月14”，“2018年6月”，“20160502”这样的格式，最后统一转换为Python中‘%Y-%m-%d %H:%M:%S’这种时间格式输出，下面展示的是整个程序最后的效果：text1 = '我要住到明天下午六点'print(text1, time_extract(text1...

2018-08-14 21:11:23 6400

原创 Python中用int实现地板除

今天看代码看到一处非常不解的地方：from datetime import datetime,timedeltatime = int(datetime.today().year/100)*100 + 19运行结果是2019简化一下，上面的代码和下面的代码是一个意思：time = int(2018/100)*100 + 19如果去掉int，像下图这样，结果就是2018+19...

2018-08-10 22:59:53 575

原创游戏流失预测模型中的P值，R值

建立流失玩家预测模型之初，对于P值和F值不是非常理解，后来随着模型的建立，清楚了P值和F值的意义，结合实际业务，对这两个值进行权衡。P值，英文为precision，准确率。R值，英文为recall，召回率。实例：测试集有1万玩家，模型判定结果如下。模型判定流失玩家模型判定未流失玩家实际流失实际流失且模型判定为流失：800人实际流失模型...

2018-08-07 23:12:27 1843

原创 Linux常用命令

最近装了一个ubantu，记录一下今天学到的基础命令。退出终端：exit 或者 ctrl+d1.ll:列出当前目录下的内容，非常全面，而ls则是列出当前目录下文件夹以及文件的名称。2.pwd:列出当前路径3.mkdir:创建一个文件夹 mkdir dir1/dir11 -p 在dir1文件夹下创建dir11 mkdir {d1,d2,d3} 一次性创建三个文件夹4....

2018-08-07 21:10:28 266

原创 Jieba分词

随着NLP 技术的成熟，开源的分词工具越来越多，下面主要学习Jieba分词这一工具的操作。一、三种分词模式import jiebasent = '中文分词是文本处理不可或缺的一步！'seg_list = jieba.cut(sent, cut_all=True)print('全模式：', '/ ' .join(seg_list)) seg_list = jieba.cu...

2018-08-05 23:06:02 1020

qq_38923076的博客