自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(172)
  • 资源 (14)
  • 论坛 (1)
  • 问答 (4)
  • 收藏
  • 关注

原创 python 操作cassandra

1. 安装python使用cassandra_driver库操作cassandra:b.1、下载https://pypi.org/project/cassandra-driver/#files: cassandra-driver-3.16.0.tar.gz,解压后安装:python setup.py install备注:3.16版本的cassandra要求Cython的版本大于0.20,小于0.29b.2、安装cassandra-driver过程中提示缺少Cython,官网下载:htt...

2020-11-25 18:07:51 4

原创 利用spark迁移cassandra集群数据

目前工作中遇到需求,需要将一个cassandra集群的数据迁移到另一个cassandra集群。从网上查询发现有两个解决方案,如下1. 读写的时候切换CassandraConnectorimport com.datastax.spark.connector._import com.datastax.spark.connector.cql._import com.datastax.spark.connector.rdd.CassandraTableScanRDDimport org.apa

2020-11-17 16:14:33 9

原创 spark another attempt succeeded

执行spark任务发现 提示信息“another attempt succeeded”,这是由于设置了spark.speculation为true,该参数的含义如下:参考:If a task appears to be taking an unusually long time to complete, Spark may launch extra duplicate copies of that task in case they can complete sooner. This is r.

2020-11-16 14:45:27 14

原创 vim常用命令

1. 移动光标的方法 操作 功能 [Ctrl] + [f] 屏幕『向下』移动一页,相当于 [Page Down]按键 [Ctrl] + [b] 屏幕『向上』移动一页,相当于 [Page Up] 按键 0 或功能键[Home] 移动到这一行的最前面字符处 $ 或功能键[End] 移动到这一行的最后面字符处

2020-10-30 15:09:59 10

原创 Hadoop安装

http://dblab.xmu.edu.cn/blog/install-hadoop/

2020-10-27 15:46:37 12

原创 geoip2解析IP的地理位置和城市

python 代码# coding=utf-8import geoip2.databasereader = geoip2.database.Reader('./GeoLite2-City.mmdb')# Open a filefo = open("ip.txt", "r")Lines = fo.readlines()fw = open("ipoutput.txt","w+")count = 0# Strips the newline characterfor line in Li

2020-10-23 10:38:05 81

原创 python高效读写文件

1. 读文件with open("./input.txt") as fp: for line in fp: line = line.strip() if line: print(line)2. 保存文件对于频繁写入文件的模块,可以采用以下方式:先将数据暂存到一个result数组中,等数组满了再一次性写入文件。output_file = "./result.txt"result = []def save(line,.

2020-09-23 14:31:35 52

原创 python 常用代码块

本文梳理在学习、工作中经常使用的一些代码。1. 读写文件2. 时间转换

2020-09-23 14:21:29 25

原创 PySpark将dataframe写入本地文件,只生成文件夹含有SUCCESS

1. 代码results = res.rdd\ .map(lambda word: (word[0].replace(u"(", u"(").replace(u")", u")"), word[1], word[2]))\ .filter(lambda word: word[0] in companys_list)\ .map(lambda word: (companys_dic.get(word[0], word[0]),word[1],

2020-08-26 11:16:52 369

原创 TextCnn 模型固化后预测时报 The operation, ‘drop_prob‘, does not exist in the graph.“

对于这一问题,由于模型设计中采用tf.layers.dropou函数,而该函数在预测时不起作用,因此固化模型时无需传drop_prob这一参数,因此如果想获取,就会报这个错。

2020-08-06 15:47:00 114

原创 BiLSTM + CRF 命名实体识别实践(下)

0. 前言上一篇博客简单讨论了理论知识,这篇博客主要是实践部分,主要针对上一篇博客中提到的代码的优化。优化点主要包含以下几个方面:(1)max_seq_len如何取值?(2)sequence_len不固定会给模型带来多大的提升?(3)batch_size不固定,方便预测(4)词向量的预训练能给模型带来哪些好处?(5)特定业务场景下,如何迁移?...

2020-07-21 12:43:57 77

转载 Python之队列queue模块使用 常见问题与用法

https://blog.csdn.net/yangzhenzhen/article/details/53536335

2020-07-16 21:46:30 53

原创 BILSTM+CRF 的命名实体识别(上)

1. CRF介绍参考资料最通俗易懂的BiLSTM-CRF模型中的CRF层介绍条件随机场(CRF)和隐马尔科夫模型(HMM)最大区别在哪里?CRF的全局最优体现在哪里?

2020-07-16 15:45:17 120

原创 TensorBoard可视化

1. 运行TensorBoardtensorboard --logdir=/path/log注:默认端口为6006,可通过参数--port=8090来设置。2. 浏览器输入http:host:6006即可访问模型网络结构可查看GRAPHS部分 图 fasttext网络结构监控指标信息可查看SCALAR...

2020-07-15 16:10:45 49

原创 BiLSTM + attention 文本分类实践

BiLSTM + attention 以BiLSTM 的输出output_fw+output_bw作为输入,先计算每个词在句子中的贡献,然后以加权的方式对embedding进行融合。计算词对句子的贡献时,以BiLSTM的输出经过一个manual操作,之后进行softmax即可得到,具体可以看代码实现部分。有几个问题,需要思考一下:(1)BiLSTM 的输出output_fw+output_bw如果以concat的方式效果如何?基于tensorflow的实现代码#!/usr/bin/p.

2020-07-11 20:33:23 419 1

原创 BiLSTM文本分类实践

BiLstm将前向和后向输出拼接起来,然后recuce_mean连个softmax即可实现文本分类(中间也可以过渡个全连接)。基于tensorflow的实现代码#!/usr/bin/python# coding=utf8import osimport numpy as npfrom datetime import datetimeimport tensorflow as tffrom sklearn import metricsfrom nlp_utils import *.

2020-07-10 19:09:29 379 2

原创 浅谈fasttext、textcnn、dpcnn

最近工作做了个短文本分类,基于fasttext的实现可见这里,基于textcnn的实现可见这里,基于dpcnn的实现可见这里。简单说说自己的一些实验结果:1. fasttext的输入一般是word+n-gram,但是仅仅用unigram即基于字,其表现也不错;2. 对于textcnn、dpcnn也可以尝试用基于word,其表现没有基于字的好;3. 其性能表现fasttext <textcnn <dpcnn, 但是差别并不是很大。各模型均在94.5%+, 差距不到一个百分点。..

2020-07-10 15:41:32 192

原创 tf.layers.dropout 和 tf.nn.dropout的区别

1.tf.nn.dropout函数tf.nn.dropout( x, keep_prob, noise_shape=None, seed=None, name=None)x:指输入,输入tensorkeep_prob: float类型,每个元素被保留下来的概率,设置神经元被选中的概率,在初始化时keep_prob是一个占位符, keep_prob=tf.placeholder(tf.float32)。tensorflow在run时设置keep_...

2020-07-10 12:08:50 209

原创 DpCNN的实践小结

DpCNN 的理论可见:https://www.jiqizhixin.com/articles/2018-06-22-4这里简单说下自己的理解:模型中卷积层的作用是扩大视野范围,池化层的作用是提取有效特征,两者结合就是可以从比较长的句子中提取有效特征。...

2020-07-09 20:35:52 273

原创 TextCNN实践小结

TextCNN模型结构如下图所示:(1)从模型结构中可以看出,多个过滤器提取的特征拼接后接个softmax层即可预测类别,通过实验尝试softmax层之前再接个全连接层进行过滤,其模型效果更好。

2020-07-09 16:14:13 89

原创 FastText的实践小结

代码如下:# -*- coding:utf-8 -*-import osimport numpy as npimport tensorflow as tffrom tensorflow.contrib import slimfrom nlp_utils import *class FastText(): def __init__(self, num_classes, seq_length,

2020-07-08 21:29:48 201

原创 TensorFlow 加载模型进行预测

1. 保存模型model_path = "./saves/"model_name = "fasttext"saver = tf.train.Saver(max_to_keep=10)saver.save(sess, model_path + model_name, global_step=train_steps)保存模型时会在model_path路径下得到3个名为model_name的文件和一个checkpoint文件,如下所示:.data-00000-of-00001和.index

2020-07-08 14:05:36 782 2

原创 EXCEL 中数据分析常用统计方法介绍(二)

0. 前言EXCEL 中数据分析常用统计方法介绍(一)介绍数据处理技巧部分,本文主要介绍几种分析方法。1. 分析方法描述统计、相关系数、协方差、回归、方差分析:单因素方差分析方差分析:可重复双因素分析方差分析:无重复双因素分析T-检验:平均值的成对二样本分析T-检验:双样本等方差假设T-检验:双样本异方差假设Z-检验:双样本平均差检验F-检验 双样本方差...

2020-06-07 11:25:21 212

原创 EXCEL 中数据分析常用统计方法介绍(一)

0. 前言Excel 数据中的数据分析功能提供了常用的一些统计方法和数据处理技巧,如下:本文尝试从实践的角度去结合理论对这些统计方法一一介绍,不对的地方烦请指出,欢迎评论区一起交流讨论。1. 处理技巧处理技巧:指数平滑、移动平均、直方图、随机数发生器、排位与百分比排位...

2020-06-07 11:19:00 225

原创 《白话统计》学习笔记之相关分析与一致性检验

1. 从协方差到线性相关系数对于变量x,y,其协方差计算公式为将x,y进行标准化,计算得到的协方差即为相关系数。2. 线性相关系数及其置信区间3. 如何比较两个线性相关系数有无差异4. 分类资料的相关系数5. 基于秩次的相关系数6. 相关分析中的几个陷阱7....

2020-04-06 20:54:52 442

原创 《白话统计》学习笔记之卡方检验

1. 卡方检验卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理...

2020-04-06 11:41:48 263

原创 《白话统计》学习笔记之方差分析与变异分解

1. 相似性度量公式similarity = max_similarity_avg * delt, 其中delt为匹配到单词数的倒数, 表示这个平均相似度的置信度。2. 随机选取200个文档

2020-03-31 11:11:14 258

原创 《白话统计》学习笔记之t检验

1. 什么是t检验2. 如何正确应用t检验3. t检验用于回归系数的检验4. Wilcoxon秩和检验

2020-03-22 17:38:39 286

原创 《白话统计》笔记之正态性与方差齐性

1. 什么是正态性和方差齐性2.为什么要进行正态性检验和方差齐性检验3. 如何进行正态性检验和方差齐性检验

2020-03-19 16:29:23 374

原创 《数据驱动从方法到实践》

最近在学习数据分析相关的内容,花了零碎的时间终于把《数据驱动》这本书看完了。于是,写个小结把书中重要的知识点记录下来。1. 从百度大数据工作的经历说开数据很重要。2.大数据思维与数据驱动大数据的概念:大、全、细、时;大数据时代到来的条件:数据采集能力增强、数据处理能力增强、数据意识的提升。3. 数据驱动的环节3.1 数据采集与埋点埋点:在正常业务逻辑中...

2020-03-16 22:17:27 522

原创 数据分析中常见的SQL语句

1.表信息假设有订单表orderinfo(orderId,userId,isPaid, price, paidTime)用户表userinfo(userId, sex,birth)2. 业务需求统计不同月份的下单人数统计用户三月份的回购率和复购率统计男女用户的消费频次是否有差异统计多次消费的用户,第一次和最后一次消费间隔是多少?统计不同年龄段,用户的消费金额...

2020-02-11 11:50:17 346 1

原创 《七周学会数据分析》笔记之数据思维

1.数据思维数据分析中常见的三种核心思维有结构化思维、公式化思维和业务化思维。1.1 结构化思维结构化思维是针对某个特定问题绘制思维导图(常用工具Xmind),从多个独立且全面的角度进行分析。1.2 公式化思维公式化思维是对于思维导图中的每一个角度,给出一个可量化的公式。1.3 业务化思维业务化思维是指进行数据分析时要充分考虑业务背景。下面以一个“如何预估北...

2020-02-08 11:10:34 209

原创 TextCNN简介与应用

1.基本原理介绍 TextCNN常用来做短文本的分类问题,其基本网络结构如下图所示:从上图不难看出,TextCNN主要包括嵌入层、卷积层、池化层和全联接softmax层:Embedding:这一层是图中最左边的7乘5的句子矩阵,高为句子中单词的个数,宽为词向量的纬度,这个可以类比为图像中的原始像素点。 Convolution:这一层经过 kernel_sizes=(2,3...

2020-02-03 20:09:02 386

原创 卷积神经网络简要笔记

1.过滤器CNN中的过滤器也被称为“kernel”,主要用来提取图片中的某一类特征,如“垂直边缘检测器”可以提取图片中的“垂线”。实际应用中,常常采用多个filter,并且每个filetr是通过训练学习来确定的。2.paddingpadding主要用来填充图片边缘,这样做可以解决两个问题:(1)避免几次卷积操作后,图片变小不能构建深层网络;(2)可以使图片的角落元...

2020-01-31 13:10:45 90

原创 FastText简单实践

fastText原理和文本分类实战https://blog.csdn.net/feilong_csdn/article/details/88655927Python interfacehttps://github.com/salestock/fastText.pyimport fasttextroot_path = "/Users/documents/"t...

2020-01-16 17:47:59 167

原创 textRank原理及实现

TextRank原理同PageRank一样,这里暂时就不论述:1.代码实现# encoding = utf-8import jieba# 利用jieba分词# 返回分割后的word listdef getWords(text): allGraphs = text.split('\n') allWords = [] for graph in allGraphs: all...

2020-01-13 15:38:24 360

原创 python 正则表达式

1. 正则表达式模式模式 描述 ^ 匹配字符串的开头 $ 匹配字符串的末尾。 . 匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符。 [...] 用来表示一组字符,单独列出:[amk] 匹配 'a','m'或'k' [^...] 不在[]中的字符:[^abc] 匹配除了a,b,c之外的字符。 ...

2020-01-12 12:17:18 58

原创 产品笔记-《增长黑客》

最近看了一本关于快速增长的书籍《增长黑客》,今天抽空来做个笔记。全书主要分为方法和实战两部分,方法主要讲述如何搭建增长团队、好产品是增长的根本、确定增长杠杆和快节奏试验,实战主要包括获客(拉新)、激活(促活)、留存和变现。1. 搭建增长团队打破筒仓,增长团队主要包括的人员有:增长负责人、产品经理、软件工程师、营销专员、数据分析师和产品设计师。主要工作流程是构想——>排定优先级——...

2020-01-08 20:17:34 114

原创 pyspark 模块化代码

期望实现的功能:建立一个模块,计算出两点间的直线距离(单位为英里),并且将计算结果从英里转换成千米。1. 创建模块文件组织结构如下:setup.py: 打包用户自定义的功能模块from setuptools import setupsetup( name='PySparkUtilities', version='0.1dev', packages=['...

2019-11-12 14:30:10 138

原创 PySpark 之 GraphFrames简介

GraphFrames可以快速轻松地分析以图形结构组织的数据,边和顶点由DataFrame表示,允许我们存储每个节点和边的任意数据。简单示例如下:# encoding=utf-8import osimport pysparkfrom pyspark.sql import SparkSessionfrom pyspark.sql import types as typfrom p...

2019-11-11 19:05:44 1518

geoip2.database包 GeoLite2-City.mmdb|GeoLite2-City.mmdb

geoip2 可解析出ip的位置和所在城市等信息,GeoLite2-City.mmdb数据库,仅供学习使用。

2020-10-23

bilstm_crf_code.tar.gz

该代码完整实现了基于bilstm+crf的tensorflow实现,可训练、预测。 ├── Batch.py # 实现batch功能 ├── bilstm_crf.py # 模型定义 ├── data # 数据文件夹 │   ├── Bosondata.pkl # 训练数据的输入(加工后) │   ├── generate_dataset.py # 数据加工脚本,将原数据处理成模型需要的格式 │   └── wordtagsplit.txt # 原数据 ├── train.py # 训练相关的代码 └── utils.py # 功能函数

2020-07-24

采用fasttext对文本公告进行分类

该代码文件包括以下几个部分: (1)nlp_utils.py 数据功能处理函数 (2)fast_text_train.py 训练代码 (3)fast_text_predict.py 利用meta模型预测代码 (4)frozen_graph.py 模型固化及预测代码 (5)saves 训练得到的模型文件 (6)word2id_dict.txt、label2id_dict.txt 训练时得到的字典文件

2020-07-08

数据分析之统计分析操作.xlsx

excel分析方法:描述统计、Z检验、F检验、t检验、方差分析。https://blog.csdn.net/jingyi130705008/article/details/106599260

2020-06-12

数据分析之数据处理操作.xlsx

Excel 数据中的数据分析功能提供了常用的一些数据处理技巧:随机数发生器、抽样、排位与百分比排位、指数平滑、移动平均、直方图。

2020-06-07

additionalCode.tar.gz

博客代码 https://blog.csdn.net/jingyi130705008/article/details/103027824

2019-11-12

births_transformed.csv.gz

博客https://blog.csdn.net/jingyi130705008/article/details/102941161 所需数据集

2019-11-06

MySQL安装文件及安装教程

mysql版本:mysql-5.5.36-win32;有详细的安装说明及卸载说明。

2018-04-07

xgboost源代码

本人通过亲自实践,教大家一步步在win下安装xgboost(http://blog.csdn.net/jingyi130705008/article/details/71435562),这个是之前的xgboost的C++版本,是在python使用xgboost之前必须的包。

2017-05-08

python_dateutil-2.6.0-py2.py3-none-any.whl

dateutil模块

2017-04-23

pandas-0.16.0rc1.win32-py2.7.exe

下载pandas-0.16.0rc1.win32-py2.7.exe,双击运行即可安装

2017-04-23

asp.net考试系统可参考源码含数据库

asp.net考试系统可参考源码含数据库

2015-12-28

C语言实现五子棋

用C写一个简单的五子棋游戏,还有人机对战呢!

2015-06-20

表达式后置代码实现

数据结构关于栈的应用:对于复杂的表达式后置C语言的实现,

2015-06-20

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除