自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (2)
  • 收藏
  • 关注

原创 风控建模-----逻辑回归

LR风控

2022-10-16 16:36:44 1104

原创 python+selenium 爬虫

python,爬虫,selenium,chrome

2022-10-05 16:51:24 488 1

原创 风控建模二、特征工程---风控

风控中特征工程基础知识

2022-09-18 11:32:09 1416

原创 风控建模二、特征工程---通用

机器学习建模,常见特征工程

2022-09-17 11:46:33 1759

原创 风控建模一、初步认识风控

风控知识简单介绍,规则,人工智能进行风控建模。

2022-09-12 16:35:57 3008

A deep relevance matching model for ad-hot retrieval 论文个人理解

Abstract:    在本篇论文中,针对临时检索,提出了一种新兴的深度相关匹配模型(DRMM)。对于

2018-06-11 10:19:15 478

原创 意图识别

本次尝试,采用了 深度学习和 机器学习两种方式去考虑相关的。前者采用embedding的词嵌入的方式基于lstm-dssm模型做司机问题和库文件中标准问题做相似度匹配。后者对数据少的信息采用smote方式扩容,采用tfidf和bow方法基于随机森林的方式训练。数据集总共 1万8千条数据,130个类。标记为null的数据达到1万3千条,数据分布也极为不均衡,所以模型很容易出现 忽略小样本的问题 。(...

2018-06-11 10:12:42 3508

原创 ubuntu下如何 将文件或者文件夹传到github上.

https://www.jianshu.com/p/c70ca3a02087(第一步)1,ssh检查2,生成秘钥,打开id_rsa.pub,查看.3,github上设置相关的ssh 远程的链接.(第二步)1,到达想上传的文件夹下. 初始化. git init2,git add . 然后设置 注释文件  git commit -m "注释信息"3,github 上 新建相应的仓库.4, ssh与仓储...

2018-05-01 17:37:15 1141

原创 python 小知识点

1关于joblib 的 Parallel, delayedfrom joblib import Parallel, delayedimport timepred=open("predict.csv",'wb')train=open("train.csv","wb")ll1=[]ll2=[]def func1(i): return it1=time.time()with ...

2018-04-26 16:46:37 204

转载 crf的意义

转载地址:http://blog.csdn.net/xueyingxue001/article/details/51499087学习方法         条件随机场模型实际上是定义在时序数据上的对数线性模型,其学习方法包括极大似然估计和正则化的极大似然估计。         具体的优化实现算法有改进的迭代尺度法IIS、梯度下降法以及拟牛顿法。 改进的

2017-09-03 19:43:04 982

原创 维特比算法个人理解

2017-08-27 10:23:21 377

原创 生成歌词多层的lstam

import osimport sysimport timeimport numpy as npimport tensorflow as tffrom tensorflow.contrib.tensorboard.plugins import projectorfrom tensorflow.contrib import rnn as rnn_cellfrom tensorflow

2017-08-27 10:22:00 663

原创 textcnn自己的理解

import tensorflow as tfimport numpy as npclass TextCNN(object): """ A CNN for text classification. Uses an embedding layer, followed by a convolutional, max-pooling and softmax layer....

2017-08-15 16:38:07 2535

原创 北京新闻爬虫-final

#coding=utf-8#地区 1:北京,2上海,3,黑龙江,4,重庆,5,海南。#环境:1,相关,0,不相关#食品:1,相关,0,不相关#情感::1,正面,-1,负面,0,中性#import webdriver from selenium#要安装 pip install seleniumimport reimport os#yum install nodejs -->

2017-08-14 16:17:15 407

原创 爬取北京这个页面的网页信息

#coding=utf-8import urllib2import httplibimport refrom pybloomfilter import BloomFilterimport StringIOimport osimport gzipimport zlibimport lxmlfrom lxml import htmlfrom lxml import etreei

2017-08-10 14:06:27 440

原创 爬取动态的网页。

#coding=utf-8#import webdriver from selenium#要安装 pip install seleniumimport re#yum install nodejs --> npm install -g cnpm --registry=https://registry.npm.taobao.org#npm install phantomjs-prebu

2017-08-09 16:52:08 466

原创 爬非动态的网页的模板

#coding=utf-8import urllib2import httplibimport refrom pybloomfilter import BloomFilterimport StringIOimport osimport gzipimport zlibimport lxmlfrom lxml import htmlfrom lxml import etree

2017-08-09 14:45:40 377

原创 深度学习---情感分析(Rnn,LSTM)

借鉴了苏建林大神的博客关于情感分析的三篇文章。并在此基础上 新加了停用词。停用词的下载链接:停用词代码环境:python2.7tensorflow-gpu 1.0jieba试验后的准确率高达98%,结果如下:代码如下:# -*- coding:utf-8 -*-'''在GTX1070上,11s一轮经过30轮迭代,训练集准确率为98.41%Dropout

2017-05-31 17:57:08 8330 3

原创 RNN,LSTM手写数组的识别,saver保存以及加载。

(一)环境搭建:Python3.5,TensorFlow1.0或者1.2,(二)实验描述:利用TensorFlow中的rnn和lstm库对手写数字图像分类。手写数字数据,如果本地没有,代码会自动连网下载(40m左右)利用saver进行保存,首先需要在代码的同级目录下创建net文件夹(三)结果展示:(四) 代码:# coding: utf-8# In[1]:

2017-05-22 20:07:15 1631

原创 小小爬虫很狂暴-----day01

小爬虫,环境:1, python 2.7环境2, 必须确保联网状态。3,装好需要的库文件。 对于pybloomfilter 的引用,本人经验:不要去 pip install pybloomfilter, 装上之后,不会报错,但无法运行。应该 pip install pybloomfiltermmap ( 加上mmap,两个m)       4,本人爬虫是在Ubuntu1

2017-05-11 21:32:49 1693

原创 TensorFlow实现word2vec 详细代码解释

参考1:http://blog.csdn.net/mylove0414/article/details/69789203参考2:《TensorFlow实战》参考3:http://www.jianshu.com/p/f682066f0586代码配合参考3的图形说明,可以更容易理解。本例子,打算实现中文的word2vec,但最后显示都是一群乱码,对应的中文代码,也没有更改。如果有人找到了解

2017-05-09 18:58:36 11285 1

原创 win10+gtx1070+tensorflow+cuda8.0+cudn搭建深度学习环境

Win10+1070+cuda8.0+cudn-->装TensorFlow的步骤:  亲测有效。步骤1、安装Anaconda 直接在官网下载并安装Anaconda,这里选择64版本。 注意,windows下安装TensorFlow,要求python版本是3.5,64位。 安装完Anaconda,也就安装了python3.5等相关工具 本人下载的是Python 3

2017-05-05 11:52:51 5780 2

原创 NLP算法之一(LDA理论和实际部分_ _邮件数据处理)

正经的理理解LDA,分为下述5个步骤:一个函数:gamma函数四个分布:二项分布、多项分布、beta分布、Dirichlet分布一个概念和一个理理念:共轭先验和⻉贝叶斯框架两个模型:pLSA、LDA一个采样:Gibbs采样例子的数据信息格式:例子:读大量的邮件信息,选出有用的信息。import numpy as npimport panda

2017-04-28 10:53:09 1138

原创 聊天机器人_ _突击01编队_ _浅聊

最基础版本的rule-base机器人¶最简单的问什么,但什么。入门级。import random# 打招呼greetings = ['hola', 'hello', 'hi', 'Hi', 'hey!','hey']# 回复打招呼random_greeting = random.choice(greetings)# 对于“你怎么样?”这个问题的回复question = ['

2017-04-27 20:56:35 437

原创 NLP算法之一(朴素贝叶斯实际部分,语言分类器)

朴素贝叶斯完成语种检测文本信息: 五个方法:1,粗暴的词去重2,文本处理,生成我们想要的样本,划分训练集和测试集,统计词频,词频降序排列。3,选取特征词。除去停止词,数字等。4,文本特征。5,将分好的文本,用贝叶斯分类器分类,输出准确率。       程序的流程。1, 预处理。2, 生成停止词。3, 文本特征提取和分类。4, 评价im

2017-04-27 15:38:17 637

原创 NLP算法之一(朴素贝叶斯实际部分,新闻分类器)

对算法每个部分都具体的实现,调用的第三方库相对较少。进行  新闻的文本分类Stopword(停止词)数据样式:        五个方法:1,粗暴的词去重2,文本处理,生成我们想要的样本,划分训练集和测试集,统计词频,词频降序排列。3,选取特征词。除去停止词,数字等。4,文本特征。5,将分好的文本,用贝叶斯分类器分类,输出准确率。 

2017-04-27 15:24:41 686

原创 NLP算法之一(朴素贝叶斯理论部分)

一、贝叶斯公式贝叶斯公式就一行:P(Y|X)=P(X|Y)P(Y)P(X)而它其实是由以下的联合概率公式推导出来:P(Y,X)=P(Y|X)P(X)=P(X|Y)P(Y)其中P(Y)叫做先验概率,P(Y|X)叫做后验概率,P(Y,X)叫做联合概率。没了,贝叶斯最核心的公式就这么些。二、机器学习的视角理解贝叶斯公式X理解成“具有某特征”,把Y理解成“类别标签”(一般机

2017-04-27 15:01:11 737

原创 爬虫养成记

爬取某个旅游网站的信息:python3.6的环境,安装了BeautifulSoup,requests,time这三个库。from bs4 import BeautifulSoupimport requestsimport timeurl_saves = 'http://www.tripadvisor.com/Saves#37685322'url = 'https://www.tr

2017-04-27 13:43:56 572

原创 word2vec 用于训练数据,生成模型

(1)首先准备好数据,这是未标记的数据形式。(2)stopword 的数据然后根据数据,设计代码。word2vec训练词向量import osimport reimport numpy as npimport pandas as pdfrom bs4 import BeautifulSoupimport nltk.data#nltk.download()

2017-04-23 14:03:39 3535

转载 nlp技能,jieba分词

jieba中文处理参考寒小阳,jieba课的内容1.基本分词函数与用法¶jieba.cut 以及 jieba.cut_for_search返回的结构都是一个可迭代的 generator,可以使用 for循环来获得分词后得到的每一个词语(unicode)jieba.cut 方法接受三个输入参数:·        需要分词的字符串·        cut_all参数

2017-04-22 08:40:35 967

原创 word2Vec--(1) nltk实现简单的切词,情感分析,文本相似度(TF-IDF)

Nltk from nltk.corpus import brown(1)    brown.categories()  该文件下的文章目录(2)    len(brown.sents())(3)    len(brown.words()) tokenizer  分词nltk.tokenize(sentence) 结巴分词   三种切词模式Imp

2017-04-21 15:08:48 6037

原创 tensorflow 基础定义

作为TensorFlow的小白,还有很多东西要学的。(1)    nodenode1 = tf.constant(3.0, tf.float32)node2 = tf.constant(4.0)# also tf.float32 implicitlyprint(node1, node2) To actuallyevaluate the nodes, we must ru

2017-04-21 15:03:28 260

jsp个人博客

欢迎下载,第一次传东西,不好别说啊,谢谢了。

2015-06-23

数据结构设计

97JAVA程序设计实验指导书及答案

2014-06-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除