qq_42797457-CSDN博客

原创 Pandas获取时间列的年、月、日

Pandas获取时间列的年、月、日首先将时间列转化为时间格式# 转化时间df['购买日期'] = pd.to_datetime(df['购买日期'],format='%Y%m%d')2. 单独获取月份列、年份列...

2019-12-02 11:47:34 4332

原创 python正则表达式匹配中文字符

使用[\u4e00-\u9fa5]import retest= '你123kd好'print(re.findall(r'[\u4e00-\u9fa5]',test))

2019-11-10 15:06:52 1013

原创 python中文居中对齐处理

！！！该方法仅能解决某一列全为中文时的对齐！！！未进行中文对齐处理时代码：objects = ['冰淇淋','电热水器','席子']print('{0:^10}'.format('物品')) # ^ 表示居中 10表示长度for object in objects: print('{0:^10}'.format(object))可见，中文并没有对齐进行中文居中对齐需要使...

2019-11-10 11:20:55 3224

原创 Scrapy框架

一、Scrapy框架异步处理框架,可配置和可扩展程度非常高,Python中使用最广泛的爬虫框架二、框架组成1、引擎(Engine) ：整个框架核心2、调度器(Scheduler) ：接受从引擎发过来的URL,入队列3、下载器(Downloader)：下载网页源码,返回给爬虫程序4、项目管道(Item Pipeline) ：数据处理5、下载器中间件(Downloader Middlew...

2019-10-22 17:33:34 165

原创探索COCO数据集

准备库matplotlibpyqt5pyqt5-sipnumpyscikit-imagepycocotools1-5 可以使用pip install XXX 进行安装下载：pycocotools 提取码：g56c解压后放置python的site-packages中准备COCO数据集下载：cocos2014.rar 提取码：mpey解压探索COCO数据集导入库...

2019-10-21 17:27:53 580

原创 stanford句法分析词性表

ROOT：要处理文本的语句IP：简单从句NP：名词短语VP：动词短语PU：断句符，通常是句号、问号、感叹号等标点符号LCP：方位词短语PP：介词短语CP：由‘的’构成的表示修饰性关系的短语DNP：由‘的’构成的表示所属关系的短语ADVP：副词短语ADJP：形容词短语DP：限定词短语QP：量词短语NN：常用名词NR：固有名词NT：时间名词PN：代词VV：动词VC：...

2019-10-19 13:59:09 738

原创使用stanfordcorenlp进行自然语言处理

下载stanford-corenlp-full-2018-10-05.zip提取码：isygstanford-chinese-corenlp-2018-10-05-models.jar提取码：uaed下载完成后解压stanford-corenlp-full-2018-10-05.zip，并将stanford-chinese-corenlp-2018-10-05-models.jar放...

2019-10-19 13:55:16 1294

原创 StanfordParser中文句法解析案例

需要两个文件stanford-parser.jar提取码：no9qstanford-chinese-corenlp-2018-10-05-models.jar提取码：qbpb使用PCFG模型import jieba, osfrom nltk.parse import stanfordif __name__ == '__main__': string = '今天天气真好！...

2019-10-17 22:01:07 369

原创 pycharm创建python虚拟环境

一、创建新项目配置自定义第三方库进入cmd，进入该文件运行虚拟环境 activate此时，可安装自己想要安装的第三方库以及对应版本，以tensorflow1.15.0为例...

2019-10-17 21:29:35 222

原创 jieba进行文本预处理工作

可以使用jieba进行文本预处理的工作有分词：中文必须进行分词词性标注：将词进行词性标注自定义词典：专业领域的词汇删除停用词，提取关键词准备语料库：中文主流的语料库 1）wiki百科中文语料库 2）搜狗中文语料库2012-6~7一、jieba分词import jiebasent = '中文分词是文本处理不可或缺的一步'seg_list = jieba.cut(sent, ...

2019-10-14 18:41:08 1841

原创 Django简单入门

MTV模式：Model 模型，与数据库交互Template 模板，HTMLViews 视图，用于处理请求，返回响应一、安装Django1.11.8pip install django==1.11.8二、创建Django项目（一）使用cmd创建进入Django项目目录下（或自定义任何目录）django-admin startproject 项目名（二）使用pycharm创建...

2019-10-13 21:17:02 1484 1

原创 python利用tensorflow.keras对Imdb数据集探索(1)--数据分析+预处理

一、Imdb数据集存放了电影的好评和差评二、下载Imdb数据集下载并解压，将aclImdb文件夹放到到与程序共同目录下三、查看文件aclImdb文件夹下存在一个测试数据集和训练数据集train和test文件夹下都有neg和pos文件夹，分别存放12500个消极评价（差评）和12500个积极评价（好评）的文件随机查看某些影评文件，发现存在html代码这提示我们应在加载数据时进行预...

2019-10-10 17:08:52 1550

原创 face_recognition 简单识别人脸案例

案例1import face_recognitionlxt_image = face_recognition.load_image_file("./1.jpg")zxc_image = face_recognition.load_image_file("./3.jpg")# 从已知图像中获取脸部编码特征lxt_face_encoding = face_recognition.face...

2019-10-09 17:09:45 314

原创梯度下降法、批量（微批）梯度下降法和随机梯度下降法（SGD）的简单比较

梯度下降法通过遍历全部数据集计算一次损失函数，然后计算各个参数的梯度，从而更新梯度缺点：每更新一次就需要遍历全部数据，计算量打，运算速度慢，不支持在线学习随机梯度下降法（SGD）每看一个数据就计算损失函数，然后计算梯度，更新参数优点：速度快缺点：虽然速度快，但收敛性能不太好，可能在最优点附近摆动，无法得出最优点；两次参数的更新也可能相互抵消。批量（微批）梯度下降法小批量的梯度下降，...

2019-09-25 19:07:02 334 1

原创 Drill下配置Hive存储插件

安装好Drill、Hive、Hadoop，且Hive以MySQL作为元数据库启动hive metastore必须先启动hive metastore，否则无法添加存储插件a@DataServer:~$ hive --service metastore配置Hive存储插件1…进入Drill/bin目录下启动Drilla@DataServer:~/softhome/drill116/bin...

2019-09-24 17:11:31 634

原创 Drill下配置Kafka存储插件

先安装好python、kafka、drill配置Kafka存储插件1…进入Drill/bin目录下启动Drilla@DataServer:~/softhome/drill116/bin$ ./drillbit.sh start2.访问网站localhost:80473.进入Storage界面，点击createConfiguration内容为# kafka消费者配置{ "ty...

2019-09-24 16:31:39 263

原创 Drill配置Mongodb存储插件

配置Mongodb存储插件1…进入Drill/bin目录下启动Drilla@DataServer:~/softhome/drill116/bin$ ./drillbit.sh start2.访问网站localhost:80473.进入Storage界面，点击createConfiguration内容为{ "type": "mongo", "connection": "mon...

2019-09-24 16:02:13 486

原创 Drill配置HBase存储插件

配置Mongodb存储插件1…进入Drill/bin目录下启动Drilla@DataServer:~/softhome/drill116/bin$ ./drillbit.sh start2.访问网站localhost:80473.进入Storage界面，点击createConfiguration内容为{ "type": "hbase", "config": { "h...

2019-09-24 09:05:09 562

原创 Drill中配置MySQL

配置MySQL存储插件1.将mysql-connector-java-5.1.47.jar（提取码：w9rp）架包拷贝到drill/jars目录下2.进入Drill/bin目录下启动Drilla@DataServer:~/softhome/drill116/bin$ ./drillbit.sh start3.访问网站localhost:80474.进入Storage界面，点击creat...

2019-09-23 22:08:05 452

原创 Drill配置hdfs存储插件

提前装好Hadoop启动drilla@DataServer:~$ drillbit.sh start# 如果没有配置Path则进入drill/bin下执行./drillbit.sh start打开网站localhost:8047进入Storage配置存储插件hdfs1.启动Hadoop./2.点击CreateConfiguration内容为（注释不添加）{ "typ...

2019-09-23 21:22:25 323

原创 Drill界面简单介绍

启动Drill启动a@DataServer:~$ drillbit.sh start访问网站localhost:8047Drill界面介绍Logs存放地址为Drill安装目录下的log文件夹ThreadsMetricsStorage存储插件默认开启cp、dfs两个存储插件查看cp的配置信息点击 cp --> Update 查看配置信息配置信息为：{...

2019-09-23 20:10:59 582

原创 Drill在Ubuntu配置

先安装好hdfs、MySQL、mongo配置Drill下载Drillapache-drill-1.16.0.tar提取码：7gqb解压a@DataServer:~/softhome$ tar -zxf apache-drill-1.16.0.tar.gz重命名，方便之后操作a@DataServer:~/softhome$ mv apache-drill-1.16.0 drill...

2019-09-23 13:10:54 492

原创 hive数据导出到hdfs

users_info 为表名 /u 为hdfs路径 hive> export table users_info to '/u/';

2019-09-21 12:48:23 1610

原创 hdfs数据导入到hive中

1.创建一个文件存放数据，以b.txt为例，文件内容为：1,001,1002,002,2003,003,3002.将文件上传到hdfs# /home/a/b.txt 为 b.txt 的路径# / 为hdfs的存放路径，这里存放到根目录a@DataServer:~$ hdfs dfs -put /home/a/b.txt /3.进入hivea@DataServer:~$ hiv...

2019-09-21 12:37:48 4612

原创 Ubuntu下配置Flume，并结合Kafka、Hadoop进行日志监测

配置Flume1.下载Flumeapache-flume-1.9.0-bin.tar.gz提取码：u2la2.解压a@DataServer:~/softhome$ tar -zxf apache-flume-1.9.0-bin.tar.gz 3.修改文件名为flume194.修改配置文件a@DataServer:~/softhome$ sudo gedit /etc/profil...

2019-09-19 16:34:23 356

原创 Ubuntu下安装配置Zeppelin

1.下载Zeppelinzeppelin-0.8.1-bin-all.tgz提取码：kxhd2.解压文件a@DataServer:~/softhome$ tar -zxf zeppelin-0.8.1-bin-all.tgz3.修改文件名a@DataServer:~/softhome$ mv zeppelin-0.8.1-bin-all zeppelin0814.conf目录下...

2019-09-17 19:59:54 517

原创 Ubuntu下HBase基本操作

请先安装好Zookeeper、Hadoop、HBase启动HBase启动Zookeeper，Zookeeper的bin目录下的zkServer.sh./zkServer.sh start启动Hadoop，Hadoop的bin目录下的start-all.sh ./start-all.sh start启动HBase，HBase的bin目录下的start-hbase.sh ...

2019-09-17 16:37:20 1208 2

原创 Zookeeper和Spark端口冲突

Zookeeper和Spark端口冲突导致http://localhost:8080/ 无法正常打开解决办法修改Zookeeper端口Zookeeper目录下conf文件下zoo.cfg添加admin.serverPort=9999如果没有该文件，则拷贝一份zoo_sample.cfg并重命名为zoo.cfg添加内容dataDir=/home/a/softhome/zookee...

2019-09-17 12:52:08 420 1

a@DataServer:~/softhome/kafka_2.12-2.3.0/bin$ ./kafka-topics.sh --list -zookeeper localhost:9092报错[2019-09-17 10:00:16,020] WARN Client session timed out, have not heard from server in 30001ms for ...

2019-09-17 10:10:35 992

原创 Zookeeper在Ubuntu下安装配置

1.下载Zookeeperapache-zookeeper-3.5.5-bin.tar.gz提取码：y9wm2. 解压Zookeepertar -zxf apache-zookeeper-3.5.5-bin.tar.gz3. zookeeper目录下创建新文件夹 data4. 进入conf目录下将zoo_sample.cfg拷贝副本并更名为 zoo.cfg5. 修改zoo.cf...

2019-09-16 20:09:37 145

原创 HBase简介以及Ubuntu下配置伪分布式HBase

先配置好JAVA，HDFS、ZOOKEEPER配置HBase1.下载HBase，终端下输入wget http://mirrors.tuna.tsinghua.edu.cn/apache/hbase/2.2.0/hbase-2.2.0-bin.tar.gz# 详见9，版本错误使用下面的# wget http://mirrors/tuna.tsinghua.edu.cn/apache/hba...

2019-09-16 15:08:41 705

原创 Ubuntu中将Eclipse添加到收藏夹

a@DataServer:~$ sudo gedit /usr/share/applications/pycharm.desktop写入[Desktop Entry]Name = Eclipse Type = ApplicationExec = /home/a/softhome/eclipse/eclipse # 运行文件Icon = /home/a/softhome/eclips...

2019-09-12 19:51:56 1346

原创 linux下安装Eclipse并配置python

请先提前安装python，才可以在eclipse下配置python安装Eclipse1.下载Eclipseeclipse-jee-2018-09-linux-gtk-x86_64.tar.gz提取码：6g9c2.解压eclipse到自定义目录下a@DataServer:~/softhome$ tar -zxf eclipse-jee-2018-09-linux-gtk-x86_64.t...

2019-09-12 19:34:26 262

原创 linux-ubuntu下Hive的安装与部署（MySQL作为元数据库）

参考文章 https://www.cnblogs.com/thisyan/p/9609497.htmlhive安装部署1.下载hive安装包并放置在合适的位置apache-hive-3.1.2-bin.tar.gz提取码：5hlk2.解压tar -xzf hive-x.y.z.tar.gz3.修改解压的文件名为hive（主要是因为名字太长了）4.修改PATH路径sudo ged...

2019-09-10 19:41:28 361 1

原创 sklearn降维算法：PCA、LDA、MDS、流形学习Isomap

一、PCA降维（主成分分析）PCA是最常用的无监督降维算法其原理是寻找方差最大维度，只是最大化类间样本的方差例如，已知存在数据点如下图PCA算法寻找方差最大维度PCA案例：iris降维%matplotlib inlineimport matplotlib.pyplot as pltfrom sklearn import decompositionfrom sklearn im...

2019-09-09 22:20:14 7666 1

原创 Kafka简单介绍以及在linux下配置Kafka

Kafka简单介绍以及在linux下配置KafkaKafka简介新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入...

2019-09-09 20:20:48 265

qq_42797457的博客