- 博客(12)
- 资源 (13)
- 收藏
- 关注
原创 岭回归预测PM2.5
# -*- coding: utf-8 -*-# @File : demo2.py# @Author : CJH# @Date : 2019/4/9# @Software: PyCharm# @Desc : 天气PM2.5预测import csvimport numpy as npfrom numpy import *import matplotlib....
2020-03-31 06:49:51 341
原创 分词、语法树
######Jieba分词######import jiebastring='如果一个文法存在某个句子对应两棵不同的语法树,则称这个文法是二义的'print(string)seg_list=jieba.cut(string,cut_all=False,HMM=True)seg_str=' '.join(seg_list)######PCFG句法分析######from nltk.p...
2020-03-27 07:18:33 404
原创 自动摘要
#!/user/bin/python# coding:utf-8import nltkimport numpyimport jiebaimport codecsimport osclass SummaryTxt: def __init__(self,stopwordspath): # 单词数量 self.N = 100 # ...
2020-03-27 07:16:14 196
原创 评论数据获取、词频统计、词云图
# coding: utf-8# In[2]:import urllib.requestimport reimport requestsimport timeimport randomimport json# 设置请求头headers = ('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537...
2020-03-26 08:23:55 1760
原创 ·Keras实现Self-Attention电影评论分类
from keras.preprocessing import sequencefrom keras.datasets import imdbfrom matplotlib import pyplot as pltimport pandas as pdfrom keras import backend as Kfrom keras.engine.topology import Lay...
2020-03-24 20:26:48 419
原创 文本表示
1 one-hot representation该单词对应所在元素为1,向量中其他元素均为0,向量的维度就等于词库中的单词数目 所有向量都是互相正交的,我们无法有效的表示两个向量间的相似度 向量维度过大。from sklearn.feature_extraction.text import CountVectorizerimport seaborn as snsimpo...
2020-03-24 14:01:56 164
原创 windows下python 使用CRF++ python接口的配置
1. 下载包含python接口的版本的CRF++并安装,安装成功后查看python文件夹包含setup.py 文件,内容如下:#!/usr/bin/env pythonfrom distutils.core import setup,Extension,osimport stringsetup(name = "mecab-python", py_modules=["CR...
2020-03-22 04:16:39 709 1
原创 电影评论分类:二分类问题
根据电影评论的 文字内容将其划分为正面或负面。使用IMDB 数据集,它包含来自互联网电影数据库(IMDB)的50 000 条严重两极分化的评论。数据集被分为用于训练的25 000 条评论与用于测试的25 000 条评论,训练集和测试集都包含50% 的正面评论和50% 的负面评论。(only use 10000 recotds because of memory error )1 加载I...
2020-03-16 20:28:07 870
原创 K-Means算法和K-Means++算法的聚类
在构成圆形的30000个随机样本点上,设置7个簇,使用K-Means算法聚类from math import pi, sin, cosfrom collections import namedtuplefrom random import random, choicefrom copy import copyimport matplotlib.pyplot as pltimport...
2020-03-14 16:38:45 224
转载 自然语言处理-LDA主题模型
LDA主题模型哈尔滨工程大学-537一、LDA主题模型简介LDA(Latent Dirichlet Allocation)中文翻译为:潜在狄利克雷分布。LDA主题模型是一种文档生成模型,是一种非监督机器学习技术。它认为一篇文档是有多个主题的,而每个主题又对应着不同的词。一篇文档的构造过程,首先是以一定的概率选择某个主题,然后再在这个主题下以一定的概率选出某一个词,这样就生成了这篇文档的第一...
2020-03-13 16:51:53 376
转载 python实现简单线性回归和多元线性回归算法
1、问题引入 在统计学中,线性回归是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。一个带有一个自变量的线性回归方程代表一条直线。我们需要对线性回归结果进行统计分析。 例如,假设我们已知一些学生年纪和游戏时间的数据,可以建立一个回归方程,输入一个新的年纪时,预测该学生的游戏时间。自变量...
2020-03-12 08:15:57 1365
原创 文献阅读:知识图谱数据管理研究综述
目前,知识图谱数据管理的理论、方法、技术与系统处于快速发展和开发完善阶段.数据库学术和产业界对知识图谱数据管理研发投入正在不断增加.本节将未来的研究方向归纳如下.(1) 知识图谱数据模型与查询语言的统一(2) 大规模知识图谱数据的分布式存储方案知识图谱数据的分布式存储面临的第一个问题是大规模图数据的划分.图划分问题本身是一个经典的 NP 完全问题.即使使用公认最优的 METIS ...
2020-03-08 05:20:01 497
自然语言处理-条件随机场工具集
2020-03-22
2019人工智能发展报告--排版V1-2.pdf
2020-01-08
回溯法求解经典问题带吗
2019-11-22
云计算体系结构及应用实例分析.pdf
2011-10-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人