2020年03月_qianjinwang

05月 04月 03月

原创岭回归预测PM2.5

# -*- coding: utf-8 -*-# @File : demo2.py# @Author : CJH# @Date : 2019/4/9# @Software: PyCharm# @Desc : 天气PM2.5预测import csvimport numpy as npfrom numpy import *import matplotlib....

2020-03-31 06:49:51 341

原创分词、语法树

######Jieba分词######import jiebastring='如果一个文法存在某个句子对应两棵不同的语法树，则称这个文法是二义的'print(string)seg_list=jieba.cut(string,cut_all=False,HMM=True)seg_str=' '.join(seg_list)######PCFG句法分析######from nltk.p...

2020-03-27 07:18:33 404

原创自动摘要

#!/user/bin/python# coding:utf-8import nltkimport numpyimport jiebaimport codecsimport osclass SummaryTxt: def __init__(self,stopwordspath): # 单词数量 self.N = 100 # ...

2020-03-27 07:16:14 196

原创评论数据获取、词频统计、词云图

# coding: utf-8# In[2]:import urllib.requestimport reimport requestsimport timeimport randomimport json# 设置请求头headers = ('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537...

2020-03-26 08:23:55 1760

原创 ·Keras实现Self-Attention电影评论分类

from keras.preprocessing import sequencefrom keras.datasets import imdbfrom matplotlib import pyplot as pltimport pandas as pdfrom keras import backend as Kfrom keras.engine.topology import Lay...

2020-03-24 20:26:48 419

原创文本表示

1 one-hot representation该单词对应所在元素为1，向量中其他元素均为0，向量的维度就等于词库中的单词数目 所有向量都是互相正交的，我们无法有效的表示两个向量间的相似度 向量维度过大。from sklearn.feature_extraction.text import CountVectorizerimport seaborn as snsimpo...

2020-03-24 14:01:56 164

原创 windows下python 使用CRF++ python接口的配置

1. 下载包含python接口的版本的CRF++并安装，安装成功后查看python文件夹包含setup.py 文件，内容如下：#!/usr/bin/env pythonfrom distutils.core import setup,Extension,osimport stringsetup(name = "mecab-python", py_modules=["CR...

2020-03-22 04:16:39 709 1

原创电影评论分类：二分类问题

根据电影评论的文字内容将其划分为正面或负面。使用IMDB 数据集，它包含来自互联网电影数据库（IMDB）的50 000 条严重两极分化的评论。数据集被分为用于训练的25 000 条评论与用于测试的25 000 条评论，训练集和测试集都包含50% 的正面评论和50% 的负面评论。(only use 10000 recotds because of memory error )1 加载I...

2020-03-16 20:28:07 870

原创 K-Means算法和K-Means++算法的聚类

在构成圆形的30000个随机样本点上，设置7个簇，使用K-Means算法聚类from math import pi, sin, cosfrom collections import namedtuplefrom random import random, choicefrom copy import copyimport matplotlib.pyplot as pltimport...

2020-03-14 16:38:45 224

转载自然语言处理-LDA主题模型

LDA主题模型哈尔滨工程大学-537一、LDA主题模型简介LDA(Latent Dirichlet Allocation)中文翻译为：潜在狄利克雷分布。LDA主题模型是一种文档生成模型，是一种非监督机器学习技术。它认为一篇文档是有多个主题的，而每个主题又对应着不同的词。一篇文档的构造过程，首先是以一定的概率选择某个主题，然后再在这个主题下以一定的概率选出某一个词，这样就生成了这篇文档的第一...

2020-03-13 16:51:53 376

转载 python实现简单线性回归和多元线性回归算法

1、问题引入　　在统计学中，线性回归是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。一个带有一个自变量的线性回归方程代表一条直线。我们需要对线性回归结果进行统计分析。　　例如，假设我们已知一些学生年纪和游戏时间的数据，可以建立一个回归方程，输入一个新的年纪时，预测该学生的游戏时间。自变量...

2020-03-12 08:15:57 1365

原创文献阅读：知识图谱数据管理研究综述

目前,知识图谱数据管理的理论、方法、技术与系统处于快速发展和开发完善阶段.数据库学术和产业界对知识图谱数据管理研发投入正在不断增加.本节将未来的研究方向归纳如下.(1) 知识图谱数据模型与查询语言的统一(2) 大规模知识图谱数据的分布式存储方案知识图谱数据的分布式存储面临的第一个问题是大规模图数据的划分.图划分问题本身是一个经典的 NP 完全问题.即使使用公认最优的 METIS ...

2020-03-08 05:20:01 497

自然语言处理、条件随机场运用字标注法进行中文分词，对语料进行字标注，观察分词效果。开源的条件随机场工具包“CRF++: Yet Another CRF toolkit”进行分词。可以使用的中文语料资源是SIGHAN提供的backoff 2005语料，目前封闭测试最好的结果是4-tag+CFR标注分词，在北大语料库上可以在准确率，召回率以及F值上达到92%以上的效果，在微软语料库上可以到达96%以上的效果。

2020-03-22

2019人工智能发展报告--排版V1-2.pdf

21世纪前两个十年，在大规模GPU服务器并行计算、大数据、深度学习算法和类脑芯片等技术的推动下，人类社会相继进入互联网时代、大数据时代和人工智能时代。当前，随着移动互联网发展红利逐步消失，后移动时代已经来临。当新一轮产业变革席卷全球，人工智能成为产业变革的核心方向：科技巨头纷纷把人工智能作为后移动时代的战略支点，努力在云端建立人工智能服务的生态系统；传统制造业在新旧动能转换，将人工智能作为发展新动力，不断创造出新的发展机遇。

2020-01-08

回溯法求解经典问题带吗

给出了TSP问题、八皇后问题、背包问题、哈密顿回路问题回溯法求接代码。从根结点出发，按照深度优先策略遍历解空间树，搜索满足约束条件的解。在搜索至树中任一结点时，先判断该结点对应的部分解是否满足约束条件，或者是否超出目标函数的界，也就是判断该结点是否包含问题的（最优）解，如果肯定不包含，则跳过对以该结点为根的子树的搜索，即所谓剪枝（Pruning）；否则，进入以该结点为根的子树，继续按照深度优先策略搜索。

2019-11-22