人工智能
文章平均质量分 56
旧梦如烟
这个作者很懒,什么都没留下…
展开
-
学了2天的Python,自己写了个简单的爬虫,可是爬虫有什么用呢?
# -*- coding: UTF-8 -*-import requestsimport pandasimport reimport jsonfrom bs4 import BeautifulSoupimport openpyxldef parseLinkedNews(url): newsDetails = [] res = requests.get(原创 2017-12-02 20:44:20 · 10921 阅读 · 2 评论 -
利用Surprise包进行电影推荐
Surprise(Simple Python Recommendation System Engine)是一款推荐系统库,是scikit系列中的一个。简单易用,同时支持多种推荐算法(基础算法、协同过滤、矩阵分解等)。设计surprise时考虑到以下目的:让用户完美控制他们的实验。为此,特别强调文档,试图通过指出算法的每个细节尽可能清晰和准确。 减轻数据集处理的痛苦。用户可以使用内置数据...转载 2019-04-13 12:24:26 · 1865 阅读 · 0 评论 -
tensorflow实现基于隐语义模型的推荐系统
# Imports for data io operationsfrom collections import dequefrom six import next# Main imports for trainingimport tensorflow as tfimport numpy as np# Evaluate train times per epochimport ti...原创 2019-04-13 16:22:28 · 527 阅读 · 0 评论 -
用Python3爬取网易云音乐并且下载至本地
import requestsimport refrom multiprocessing import Poolimport urllibheaders = { 'Referer': 'https://music.163.com/', "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.3...原创 2019-04-16 21:12:29 · 2832 阅读 · 1 评论 -
基于Gensim创建词向量
首先得对数据进行预处理。去掉停用词以及结巴分词。将处理后的结果保存成文件。本案使用的是天龙八部.txtimport jiebaimport jieba.analyseimport jieba.posseg as psegstop_words = []with open ('data/stopwords.txt','r',encoding='UTF-8') as...原创 2019-07-04 17:09:07 · 1889 阅读 · 0 评论 -
Tensorflow 的NCE-Loss的实现和word2vec
先看看tensorflow的nce-loss的API:def nce_loss(weights, biases, inputs, labels, num_sampled, num_classes, num_true=1, sampled_values=None, remove_accidental_hits=Fal...原创 2019-07-18 14:28:11 · 560 阅读 · 0 评论 -
tf.nn.sampled_softmax_loss候选采样损失函数
候选采样函数生成类别子集。类别子集需要送给候选采样损失函数计算损失,最小化候选采样损失便能训练模型。TF 提供下面两个候选采样损失函数。这两个采样损失函数的参数和返回值是一致的, 具体参数和返回值可以移步 TF 文档。 1. tf.nn.sampled_softmax_loss 这个函数通过 模型的交叉熵损失。候选类别子集由采样类别 和真实类别 组成,即 。模型最后一层输出是 , 经过...原创 2019-07-18 14:38:06 · 4750 阅读 · 2 评论 -
collections.Counter 计数器
import collectionswords = ["萌萌","萌萌","萌萌","萌萌","爱","赖赖"]print(type(collections.Counter(words)))先指定一个list,然后调用collections.Counter()函数,将list传入,就可以得到计数。运行结果如下:Counter({'萌萌': 4, '爱': 1, '赖赖...原创 2019-07-18 20:49:52 · 358 阅读 · 0 评论 -
gensim函数库的Word2Vec的参数说明
用gensim函数库训练Word2Vec模型有很多配置参数。这里对gensim文档的Word2Vec函数的参数说明进行翻译,以便不时之需。class gensim.models.word2vec.Word2Vec(sentences=None,size=100,alpha=0.025,window=5, min_count=5, max_vocab_size=None, sample=0.00...原创 2019-07-16 20:46:16 · 272 阅读 · 0 评论 -
tf.reduce_sum理解(小记)
# 'x' is [[1, 1, 1]# [1, 1, 1]]#求和tf.reduce_sum(x) ==> 6#按列求和tf.reduce_sum(x, 0) ==> [2, 2, 2]#按行求和tf.reduce_sum(x, 1) ==> [3, 3]#按照行的维度求和tf.reduce_sum(x, 1, keep_di...原创 2019-07-20 10:14:44 · 390 阅读 · 0 评论 -
用tensorflow做的cbow词向量
1:先导入包#encoding=utf8from __future__ import absolute_importfrom __future__ import divisionfrom __future__ import print_functionimport collectionsimport mathimport osimport randomimport zipf...原创 2019-07-20 11:09:31 · 1044 阅读 · 0 评论 -
简明 jieba 中文分词教程
0 引言 jieba 是目前最好的 Python 中文分词组件,它主要有以下 3 种特性:支持 3 种分词模式:精确模式、全模式、搜索引擎模式 支持繁体分词 支持自定义词典# 导入 jiebaimport jiebaimport jieba.posseg as pseg #词性标注import jieba.analyse as anls #关键词提取1 分词 可...转载 2019-08-03 10:05:05 · 1106 阅读 · 0 评论 -
解读tensorflow之rnn
from: http://lan2720.github.io/2016/07/16/%E8%A7%A3%E8%AF%BBtensorflow%E4%B9%8Brnn/这两天想搞清楚用tensorflow来实现rnn/lstm如何做,但是google了半天,发现tf在rnn方面的实现代码或者教程都太少了,仅有的几个教程讲的又过于简单。没办法,只能亲自动手一步步研究官方给出的代码了。本文研究的...转载 2019-07-22 22:41:18 · 217 阅读 · 0 评论 -
Attention原理及TensorFlow AttentionWrapper源码解析
本节来详细说明一下 Seq2Seq 模型中一个非常有用的 Attention 的机制,并结合 TensorFlow 中的 AttentionWrapper 来剖析一下其代码实现。Seq2Seq首先来简单说明一下 Seq2Seq 模型,如果搞过深度学习,想必一定听说过 Seq2Seq 模型,Seq2Seq 其实就是 Sequence to Sequence,也简称 S2S,也可以称之为 En...转载 2019-08-11 09:38:32 · 796 阅读 · 0 评论 -
用LSTM写古诗词
1:整体思路就是先统计古诗词中的词频,进行词到数字的映射。生成poems_vector(词向量),word_to_int(词数字映射关系),words(词表)。预处理古诗词代码:import collectionsimport numpy as npdef process_poems(file_path): poems = [] with open(fil...原创 2019-08-17 22:25:02 · 1042 阅读 · 0 评论 -
机器学习面试题汇总
https://blog.csdn.net/weixin_40355324/article/details/80426952转载 2019-09-03 16:10:47 · 155 阅读 · 0 评论 -
用Python计算字符串之间的编辑距离
# 基于动态规划的解法def edit_dist(str1, str2): # m,n分别字符串str1和str2的长度 m, n = len(str1), len(str2) # 构建二位数组来存储子问题(sub-problem)的答案 dp = [[0 for x in range(n+1)] for x in range(m+1)]...原创 2019-09-18 22:13:09 · 2009 阅读 · 0 评论 -
Rcnn系列
原创 2019-04-13 10:23:36 · 228 阅读 · 0 评论 -
xgboost入门与实战(原理篇)
xgboost入门与实战(原理篇)前言:xgboost是大规模并行boosted tree的工具,它是目前最快最好的开源boosted tree工具包,比常见的工具包快10倍以上。在数据科学方面,有大量kaggle选手选用它进行数据挖掘比赛,其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面,xgboost的分布式版本有广泛的可移植性,支持在YARN, MPI, Sungrid...转载 2018-09-18 06:21:00 · 321 阅读 · 0 评论 -
Numpy学习
# -*- coding: UTF-8 -*-import numpy as npfrom pylab import *from numpy.linalg import *a = np.arange(20).reshape(4,5) #arange创建以为数组,reshape可以修改数组的形状。 reshape(4,5)则可以把一维数组改为一个4行5列的数组print(a)原创 2017-12-11 23:59:21 · 309 阅读 · 0 评论 -
用python画图第一篇
用python画图,y=x和y=x*x叠加在一起。并且标记x=1的点# -*- coding: UTF-8 -*-import matplotlib as mplimport numpy as npimport matplotlib.pyplot as pltimport matplotlib as mplimport matplotlib.pyplot as pl原创 2017-12-13 23:25:21 · 5627 阅读 · 0 评论 -
python画图第二篇
用python画散点图# -*- coding: UTF-8 -*-import matplotlib as mplimport numpy as npimport matplotlib.pyplot as pltn=1024X=np.random.normal(0,1,n)Y=np.random.normal(0,1,n)T=np.arctan2(Y,X)#颜色p原创 2017-12-13 23:39:24 · 322 阅读 · 0 评论 -
win7下安装ta-lib报错解决
在windows 7 x64下安装ta-lib包python 2.7 x86,32位anaconda2 4.0.0-32位(Anaconda2-4.4.0-Windows-x86)如果Python,或者anaconda是3.5以上,64位,可以直接:conda install ta-lib或者pip install ta-lib即可。以下主要说明32位python安原创 2017-12-24 22:42:19 · 4549 阅读 · 0 评论 -
单层感知器的python实现
# -*- coding: UTF-8 -*-import matplotlib as mplimport numpy as npimport matplotlib.pyplot as plt#单层感知器的实现X=np.array([[1,3,3], [1,4,3], [1,1,1]])Y=np.array([1,1,-1原创 2017-12-16 21:03:41 · 1861 阅读 · 0 评论 -
线性神经网络处理异或问题
# -*- coding: UTF-8 -*-import matplotlib as mplimport numpy as npimport matplotlib.pyplot as plt#单层感知器的实现X=np.array([[1,0,0,0,0,0], [1,0,1,0,0,1], [1,1,0,1,0,0],原创 2017-12-17 13:58:08 · 434 阅读 · 0 评论 -
BP神经网络Python实现异或问题
# -*- coding: UTF-8 -*-import matplotlib as mplimport numpy as npimport matplotlib.pyplot as plt#BP神经网络实现异或问题X=np.array([[1,0,0], [1,0,1], [1,1,0], [1,1原创 2017-12-17 22:35:49 · 1841 阅读 · 0 评论 -
tensorflow中常用的函数
前言tensorflow官网给的例子用到了很多函数,然后并没有具体说明,还要自己去翻文档,有些函数是很常用的,下面来一一总结。正文一,tensorflow中有一类在tensor的某一维度上求值的函数。如:求最大值tf.reduce_max(input_tensor, reduction_indices=None, keep_dims=False, name=No转载 2018-01-06 00:39:13 · 352 阅读 · 0 评论 -
用tensorflow实现线性回归问题
# -*- coding: UTF-8 -*-import tensorflow as tfimport numpy as npimport matplotlib.pyplot as pltimport osos.environ['TF_CPP_MIN_LOG_LEVEL'] = '2' #忽略警告num_points = 1000#定义噪点的个数vector原创 2018-01-06 00:40:34 · 264 阅读 · 0 评论 -
逻辑回归Softmax简介
Logistic Regression 模型简介FIN·2015-05-08 10:00逻辑回归(Logistic Regression)是机器学习中的一种分类模型,由于算法的简单和高效,在实际中应用非常广泛。本文作为美团机器学习InAction系列中的一篇,主要关注逻辑回归算法的数学模型和参数求解方法,最后也会简单讨论下逻辑回归和贝叶斯分类的关系,以及在多分类问题上的推广。逻辑回...转载 2018-01-06 22:35:10 · 1143 阅读 · 1 评论 -
Softmax 函数及其作用(含推导)
Softmax函数的定义及作用Softmax是一种形如下式的函数:P(i)=exp(θTix)∑Kk=1exp(θTkx)其中θi和x是列向量,θTix可能被换成函数关于x的函数fi(x)。通过softmax函数,可以使得P(i)的范围在[0,1]之间。在回归和分类问题中,通常θ是待求参数,通过寻找使得P(i)最大的θi作为最佳参数。但是,使得范转载 2018-01-06 23:34:05 · 1356 阅读 · 1 评论 -
Python字符串切片
在python中,我们定义好一个字符串,如下所示。在python中定义个字符串然后把它赋值给一个变量。我们可以通过下标访问单个的字符,跟所有的语言一样,下标从0开始(==,我自己都觉得写的好脑残了)这个时候呢,我们可以通过切片的方式来截取出我们定义的字符串的一部分。使用切片的时候我们有两种方式:1.没有步长的简单切片语法格式是这样的:1.首先定义一格字符串,比如叫 Hebe,然后给它赋值2. 截取...转载 2018-03-04 22:03:31 · 14966 阅读 · 0 评论 -
Python用递归实现回文字符串的判断
def isHuiWen(str): if(len(str) <2): return True if str[0] !=str[-1]: return False return isHuiWen(str[1:-1])str = input("请输入一个字符串:")if isHuiWen(str): print("该字...原创 2018-03-04 22:04:17 · 6968 阅读 · 1 评论 -
Python从网上down文件资源
import requestsresponse = requests.get('http://img.zcool.cn/community/0142135541fe180000019ae9b8cf86.jpg@1280w_1l_2o_100sh.png')with open ('E:/mengmeng/mengmeng.png','wb') as f: f.write(response....原创 2018-03-24 13:49:08 · 1151 阅读 · 0 评论 -
请在Capital Bikeshare (美国Washington, D.C.的一个共享单车公司)提供的自行车数据上进行回归分析。训练数据为2011年的数据,要求预测2012年每天的单车共享数量。
字段说明Instant 记录号Dteday:日期Season:季节 1=春天 2=夏天 3=秋天 4=冬天yr:年份,(0: 2011, 1:2012)mnth:月份( 1 to 12)hr:小时 (0 to 23) (只在 hour.csv 有,作业忽略此字段)holiday:是否是节假日weekday:星期中的哪天,取值为 0~6workin...原创 2018-08-19 11:41:56 · 3757 阅读 · 2 评论 -
sklearn的快速使用
传统的机器学习任务从开始到建模的一般流程是:获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测,分类。本文我们将依据传统机器学习的流程,看看在每一步流程中都有哪些常用的函数以及它们的用法是怎么样的。希望你看完这篇文章可以最为快速的开始你的学习任务。1. 获取数据1.1 导入sklearn数据集 sklearn中包含了大量的优质的数据集,...转载 2018-09-09 21:26:14 · 263 阅读 · 0 评论 -
生成指定编辑距离的单词
给定一个单词,我们也可以生成编辑距离为K的单词列表。 比如给定 str="apple",K=1, 可以生成“appl”, "appla", "pple"...等 下面看怎么生成这些单词。 还是用英文的例子来说明。 仍然假设有三种操作 - 插入,删除,替换def generate_edit_one(str): """ 给定一个字符串,生成编辑距离为1的字符串列表。 ""...原创 2019-09-18 22:22:56 · 302 阅读 · 0 评论