2018年06月_JQW_FY

原创 SQL查询优化

注意：查询优化，索引优化，库表结构优化需要齐头并进如何获取有性能问题的sql进行优化？通过用户反馈获取存在性能问题的sql使用慢查询日志获取有性能问题的Sql 磁盘IO和存储日志所需要的磁盘空间slow_query_log启动停止记录慢查询日志（ON）通过脚本定时控制参数slow_query_log_file指定慢查日志的存储路径及文件long_query_time指定记录慢查询SQL执行时间的伐...

2018-06-27 14:18:51 162

原创 mysql性能优化

一个主要案例：双11web服务器可以不断复制扩展，而数据库服务器讲究一致性，所以不容易扩展----->衍生出数据库架构！影响数据库服务器性能的因素分析：sql查询速度服务器硬件网卡流量磁盘IO 主服务器性能参数: CPU：64核内存：512Gsql执行速度的可怕型:(通过数据库性能的问题80%是由于慢查询造成的!)其他风险：大量的并发和超高的CPU使用率大量的并发： ...

2018-06-27 12:13:52 150

原创自然语言处理-聊天机器人

rule-based的玩法,以及几个角度的升级。首先，我们看一个最基础版本的rule-base机器人基本就是小学生级别的问什么答什么In [11]:import random# 打招呼greetings = ['hola', 'hello', 'hi', 'Hi', 'hey!','hey']# 回复打招呼random_greeting = random.choice(greetin...

2018-06-24 22:40:12 1036

原创自然语言处理-词向量与相关应用

计算机处理图像和文字的实质是在向量矩阵等基础上将其转化为数字，然后计算搜索的内容和库内容信息的匹配度文字--->数值向量算法案例：词编码：N-gram 权重：TF-IDF ---->word2vec---->sense2vec------------------------------------------------------------------------------...

2018-06-24 12:09:32 1454

原创深度学习在自然语言处理中的运用

目录：introAuto-Encoder CNN4Text(卷积)RNNLSTM案例Reference ------------------------------------------------------------------------------------------------------------Intro 问题原型：Text--->Label 文本分类---&gt...

2018-06-23 20:47:07 553

原创快速排序原理理解

高快省的排序算法有没有既不浪费空间又可以快一点的排序算法呢？那就是“快速排序”啦！光听这个名字是不是就觉得很高端呢。假设我们现在对“6 1 2 7 9 3 4 5 10 8”这个10个数进行排序。首先在这个序列中随便找一个数作为基准数（不要被这个名词吓到了，就是一个用来参照的数，待会你就知道它用来做啥的了）。为了方便，就让第一个数6作为基准数吧。接下来，需要将这个序列中所有比基准数大...

2018-06-14 20:09:45 760

原创第八章-数据提取

信息提取分块正则表达式分块探索文本语料库加缝隙开发与评估分块器简单评估和基准使用unigram标注器对名词短语分块训练基于分类器的分块器语言结构中的递归用级联分块器构建嵌套结构树遍历树命名实体识别关系抽取--------------------------------------------------------------------------------------------------...

2018-06-10 18:32:23 343

原创第七章-文本聚类

加载影片数据数据清洗，获取html代码中的文本内容为每个项目生成索引的全集(在本例中它只是排名),以后我将使用这个得分载入 nltk 的英文停用词作为“stopwords”变量载入 nltk 的 SnowballStemmer 作为“stemmer”变量这里定义了一个分词器（tokenizer）和词干分析器（stemmer），它们会输出给定文本词干化后的词集合 # 首先分句，接着分词，而标点...

2018-06-10 18:29:29 574 1

原创第六章 -文本分类

信息提取分块正则表达式分块探索文本语料库加缝隙开发与评估分块器简单评估和基准使用unigram标注器对名词短语分块训练基于分类器的分块器语言结构中的递归用级联分块器构建嵌套结构树遍历树命名实体识别关系抽取--------------------------------------------------------------------------------------------------...

2018-06-10 18:23:09 297 2

原创程序员解Bug的通用套路

千万不要当程序员面说有bug对于新手程序员而言，在复杂代码中找BUG是一个难点。下面我们总结下程序员解Bug的通用套路，希望对大家有帮助。1.IDE调试根据项目特点和语言特点选择一个最合适的IDE，由于本人是做C++出身，最喜欢用的莫过于Visual Studio 了，这款微软开发的IDE，自从研发出来，就被称为宇宙第一编译器，能编译调试C/C++、C#、F#、Python、JavaSc...

2018-06-10 15:44:10 1490

原创第五章-词性标注

词性标注器解决的问题？标注语料库名词动词未简化标记搜索已标注的语料库自动标记默认标注器正则表达式标注器查询标注器N-gram标注一元模型分离训练与测试数据一般N-gram标注组合标注器储存标注器性能限制跨句子边界标注--------------------------------------------------------------------------------------------...

2018-06-10 13:08:47 460

原创第四章-分词

解决问题？分词精确模式搜索引擎模式添加词典调整词典关键词提取词性标注-------------------------------------------------------------------------------------------------------------------# -*- coding: utf-8 -*-from __future__ import unic...

2018-06-09 20:42:18 170

原创第三章-处理原始文本

需要解决的问题？txt在线文档下载分词创建text根据内容定义开始与结尾HTML下载HTML解析过滤无关内容读取本地文件正则表达式查找ed结尾的词汇字谜：8个字母，第3个字母是j，第6个字母是t9宫格输入判断正则表达式中的+提取字符块查找词干搜索已分词文本规范化文本词干提取器词性归并分割链表与字符串字符串与格式排列------------------------------------------...

2018-06-09 17:31:13 310

原创第二章-获取文本语料和词汇资源

解决的问题使用古腾堡语料库网络和聊天文本布朗语料库路透社语料库就职演讲语料库其他语料库载入自己的语料库条件频率分布条件与事件按文体计算词频绘制分布图和分布表使用双连词生成随机文本词典词汇列表语料库发音词典比较词典词汇工具同义词更多词汇关系语义相似度-------------------------------------------------实例代码-----------------------...

2018-06-09 14:48:37 593

原创第一章-语言处理与Python

第一章解决的问题：搜索文本搜索单词搜索相似词搜索共同上下文词汇分布图自动生成文章计数词汇重复词密度关键词密度词链表连接追加索引切片索引从0开始，要注意简单统计频率分布细粒度的选择词词语搭配其他统计结果----------------------------------------------------------------------------------------------------...

2018-06-09 14:36:49 224

原创 python安装nltk

前提：下载配置好了python 和pip ,详见python安装pip打开终端：cmd--->pip install nltk即可（可能第一次会报错，多试几次）建议不要通过创建py文件或者python命令行，然后输入>>>import nltk>>>nltk.download()因为这种方式常常会由于网络的原因导致出现下载异常；这里我分享了我的nltk...

2018-06-07 20:24:38 5714 1

原创 python pip 安装

步骤一：去官网下载python3.6在安装时选择环境变量自动配置测试cmd --> python / where python步骤二：下载pip包，cmd进入pip setup.py所在的当前目录，如下：输入python setup.py install完成pip的安装...

2018-06-07 18:48:47 256

原创 sparkStreaming处理文件系统数据（local/hdfs）

其他sparkStreaming项目案例地址：（建议每一个都是熟知）https://github.com/apache/spark/tree/master/examples/src/main/scala/org/apache/spark/examples/streaming sparkStreaming处理文件系统数据（local/hdfs）：package com.imooc.sparkim...

2018-06-06 13:54:55 929

原创 sparkStreaming-WordCountDemo处理socket数据

步骤一：配置环境，特别注意虚拟机的hosts文件和window中的hosts文件，以及关闭防火墙 linux: sudo vim /etc/hosts 添加ip到name的映射，从而让外网访问你时用name便可 window: C:\Windows\System32\drivers\etc 将linux /etc/hosts 中的映射写进去,这用于在window上可以访问...

2018-06-06 13:28:17 215

原创 sparkStreaming介绍与运行方式

Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live data streams.Spark Streaming个人的定义：将不同的数据源的数据经过Spark Streaming处理之...

2018-06-06 13:14:48 665

原创 sparkStremingx项目实战(python定时日志生成器+flume+kafka+ spark+ hbase+ springBoot)

数据清洗一定是对Log4j熟悉操作用户行为访问日志：1.网站页面的访问量 2.网站的粘性 3.推荐用户行为日志分析的意义：眼睛，神经通过定时调度工具每一分种产生的一批数据网站+ Linux croutab 项目实战：构建定时日志产生器----对接--》flume 构建conf*2---...

2018-06-06 10:17:43 1117

原创 idea创建scala maven项目总结

步骤一：安装scala插件注意一般我们在idea上下载插件很容易因为网络原因下载不成功！所以去idea插件网址下载，但要知道自己idea scala的版本http://plugins.jetbrains.com/plugin/?idea&id=1347 测试：idea 重启， new project 显示scala选项代表安装成功！！步骤二：下载scala-sdk (注意这个scala-s...

2018-06-05 21:47:12 2601

原创 idea maven 更新依赖总是卡死

在使用2018.2版本的Idea更新maven依赖时，总是会卡死解决步骤： 1.查看mirror是否配置了阿里云的镜像 2.查看file--->settings---->maven中的maven仓库和setting是否配置正确上1,2都无果的情况下，我选择安装idea 2016的稳定版却解决了问题！！地址：https://pan.baidu.com/s...

2018-06-05 19:41:34 9418

原创大数据-Flume整合Kafka

------------------------------------------------------------------------------------------------------------------------------avro-memory-kafka.conf配置：avro-memory-kafka.sources = avro-sourceavro-memor...

2018-06-05 12:27:49 405

原创异常kafka.common.FailedToSendMessageException: Failed to send messages after 3 tries.

场景：在linux 上创建了kafka topic, 但window上通过idea编写的kafka java api无法连接到linux 上的 kafka 解决思路：1.测试端口是否可以检测到 window --》cmd 输入telnet 虚拟机ip 9092 (kafka端口)/2181(zookeeper端口) 发现都...

2018-06-04 21:15:55 2467

原创大数据-Kafka容错性

partitionCount： 1 代表分区数为1 replicationFactor: 3 代表副本数为3 replicas:3 1 2 代表副本存放的brokeridIsr : 3 1 2 代表活着的是3 1 2leader: 3 代表broker编号为3 的是leader理解kafka的容错性：（容错性测试）当我们kafka有3个，随意删除其2个都不会影响kafka运行当只剩下一个时，那么...

2018-06-04 19:33:48 3844

原创大数据-日志生成器-flume-kafka-sparkStreaming

日志作为flume输入源？借助log4j,并且配置如下：log4j.rootLogger=INFO,stdout,flumelog4j.appender.stdout = org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.target = System.outlog4j.appender.stdout.layout=org.apache.l...

2018-06-04 15:15:33 1070

原创大数据组件起点案例

flume : 监听端口，实现数据收集监听文件，实现数据收集监听文件，转向其他机器，实现数据收集kafka : 单节点单broker 单节点多broker 多节点多brokersparkStreaming ： word-count案例实现...

2018-06-03 21:51:38 281

原创 SparkStreaming整合Flume-Pull方式（核心）

------------------------------------------SparkStreaming第二种方式整合Flume-----------------------------------详细学习地址：https://spark.apache.org/docs/latest/streaming-flume-integration.html注意这种方式相比第一种方式更可靠，支持容错...

2018-06-03 21:02:26 594

原创 SparkStreaming整合Flume-Push方式

SparkStreaming整合Flume有俩种方式详细学习文档地址：https://spark.apache.org/docs/latest/streaming-flume-integration.html方式一：Push方式整合步骤一：编写flume配置文件Flume Agent的编写： flume_push_streaming.confsimple-agent.sources = netca...

2018-06-03 13:51:03 329

原创 SparkStreaming常见案例

updateStateByKey算子需求：统计到目前为止累积出现的单词的个数(需要保持住以前的状态)java.lang.IllegalArgumentException: requirement failed: The checkpoint directory has not been set. Please set it by StreamingContext.checkpoint().需求：将...

2018-06-03 11:32:31 599

原创大数据-SparkStreaming

官方学习网址： https://spark.apache.org/docs/latest/streaming-programming-guide.html#a-quick-exampleSparkStreaming介绍： StreamingContext is the main entry point for all streaming functionality要初始化Spark Streami...

2018-06-01 18:38:23 294

无