- 博客(343)
- 收藏
- 关注
原创 机器生成小说的可行性探索
前段时间简单调研了一下小说的结构,希望了解机器生成小说的可行性。思路是基于人类现有所有文学作品作为输入,辅助人类作者写小说。非当前gpt这种seq2seq生成的思路,希望是先对小说内容做理解,即信息结构化。工作进行中,欢迎感兴趣的朋友一起交流!这个研究领域叫做computationalnarrative,前人有一些工作,但离生成能看的小说还有相当距离。这里先记录部分笔记:https://zh.wikipedia.org/wiki/三十六劇,三十六剧定义了36种常见剧情模式。...
2020-10-22 10:52:18 23921
原创 《知识图谱:概念与技术》笔记
基础知识知识图谱与NLP的关系,思考1 人类是如何利用背景知识实现语言理解的?(基于图谱的语言理解)2 人类是如何认知这个世界,进而形成知识的?(指导图谱的构造)评价知识表示的重要因素:1 表达能力2 计算效率知识图谱的知识表示方法:1 符号化表示。面向人的理解,易于理解,可实现符号推理。2 向量化表示。知识图谱的变种:传统KG在实际商业应用中可用范围小,为提升其可用范围,需对KG进行变种设计。例如,1事理图谱,描述事件之间的演化规律和模式...
2020-10-22 10:36:03 637
原创 计算广告相关笔记
内容主要来源于刘鹏老师的《计算广告》,和一些互联网公开ppt广告有效性原理可分为六个阶段:曝光 -> 关注 -> 理解 -> 接受 -> 保持 -> 决策曝光:主要取决于广告位,曝光有效性对最终结果的影响,往往远远高于其他技术性因素,所以才会有“位置为王”的说法。关注:如何提高关注阶段的效率呢?1 不要打断用户的任务。 上下文定向技术2 明确传达向用户推送此广告的原因。受众定向广告创意优化技术。3 内容符合用户的兴趣或需求。行为定向技术。..
2020-10-22 10:29:53 384
原创 《程序设计实践》笔记
名字变量的作用域越大,它的名字所携带的基本信息就应该越多。全局变量使用具有说明性的文字,局部变量用短名字。因为全局变量可以出现在整个程序任何地方,因此它们的名字应足够长,具有足够的说明性,以便读者能够记得它们是干什么用的。按常规方式使用的局部变量可以采用极短的名字。例如,i、j做循环变量,p、q做指针,s、t表示字符串。函数采用动作性的名字。例如getTime...
2019-09-04 13:38:07 291
原创 《好好说话》笔记
说话是权利的游戏:1 演讲 — 权力的形成2 沟通—权力的流动3 说服 — 权力在对方4 谈判 — 权力在双方5 辩论 — 权力在他方典型错误:1 演讲时,上台伊始就急着煽情或者下结论。2 沟通时,喜欢强行推进自己的结论。用反问或追问的方式逼迫对方同意自己的观点。3 说服时,以为只要辩倒对方,就能“以理服人”。说服的关键,是要尊重并且利用对方的自主性。使其...
2019-09-04 13:28:36 574
原创 搜索引擎初探
本文简单总结一下最近对搜索引擎的学习研究。综合了stanford cs276http://web.stanford.edu/class/cs276/和一些query理解http://queryunderstanding.com的内容。什么是搜索引擎?用户带着目的(user intents),在搜索引擎输入一段文本(语音或文字)(query),搜索引擎返回相关的网页、文档等资源(sear...
2019-08-30 19:56:15 1079
原创 《马东职场B计划》笔记
喜马拉雅上的一个音频课,记下一些反个人直觉或之前想不到的观点:作为老板,最重要的任务就是做决策。而作为员工,他主要的任务之一,就是让老板尽可能放心的更改决策。权利不仅仅来自于岗位,更重要来自于你的专业性。如何看待情绪价值?组织里,员工贡献的价值有两种:生存价值、情绪价值。一个人的情绪价值会影响其他人的生存价值,而我们希望的是整个团队的生存价值最大化。你真...
2019-08-27 20:00:45 2819
原创 《刘慈欣的思想实验室》笔记
本文是喜马拉雅的一个音频笔记。我认为科幻的魅力是让人驰骋在想象的空间和时间中。而好的问题是打开想象的钥匙,因此整理出一些个人觉得好玩的问题。太空开发对我们生活的影响?比IT产业要大得多太空开发做什么?太空矿藏、殖民地开发等太空初期开发是否会像大航海时代一样,比如发生对资源和殖民地的掠夺?太空国际法是否会继续被大家遵守?外星文明和人类接触...
2019-08-22 17:23:31 672
原创 stanford cs230 课程笔记
吴恩达老师讲的斯坦福深度学习课程,课程链接:https://cs230.stanford.edu。第八讲的课程笔记:读完论文后,回答这几个问题:作者希望完成什么事? 使用的方法的几个核心元素是什么? 换了你自己能够采用什么方法? 你有哪些参考文献希望继续跟进?如何判断自己是否真正理解论文数学:自己重新推倒一遍公式算法:用代码自己实现一遍周六上午问题:...
2019-08-20 17:00:04 440
原创 自动驾驶课程笔记
MIT 自动驾驶课程的一些笔记,课程链接 https://selfdrivingcars.mit.edu自动驾驶的乐观与悲观乐观主义者:1 拯救生命(每年有130万人死于车祸) 原因:酒驾、吸毒、分心、疲劳2 降低拥有私人汽车的比例 增加流通性和使用率 省钱3 让交通变的个性化、高效和可靠 悲观主义者:1 减少运输业的工作机会...
2018-08-31 11:24:08 505
原创 工业界怎样评估一个问题是否适合用NLP解决
整理于论文 On the Challenges of Translating NLP Research into Commercial Products1 首先确定商业问题是什么:潜在用户是谁,要解决什么问题,定义问题的输入与输出。2 确定这个问题是否需要用统计方法的NLP:数据量很大,需要自动化,且需要用复杂的规则,更适合机器学习。3 确认是否有可用的数据
2017-09-18 15:22:56 648
原创 UTAustinX: UT.5.04x LAFF: Linear Algebra - Foundations to Frontiers 课程笔记
去年10月份学线性代数时的课程笔记Week 2 Linear Transformations and Matrices函数f(x)是线性变换的充要条件:1 f(ax) = af(x) (a是常数)2 f(x+y) = f(x) + f(y)或者,f(x) 可表示为,一个矩阵A与x的乘法。Week 6: Gaussian E
2017-09-15 21:13:59 602
原创 《人类简史》读书笔记
半年前的读书笔记了,拿来更新一下博客。1 人类是遵从进化论诞生的。2 人曾经有很多“同族”,但最后都被“智人”“灭掉”了。3 智力的发达,远古人类付出两个代价:首先是花更多时间寻找食物,其次是肌肉退化萎缩。(能量供给的角度得出的结论)4 直立行走,从而解放双手,进而使用工具。5 火的使用。加热的食物,可以杀死病菌和寄生虫,大幅减少咀嚼和消化的时间。6 大规模的人类合作是
2017-09-15 20:49:24 1339
原创 Stanford CS224n: Natural Language Processing with Deep Learning 课程笔记
Stanford CS224n: Natural Language Processing with Deep Learning 课程主页:http://web.stanford.edu/class/cs224n/已完成的课程作业代码:https://github.com/xingjian-f/Standford-cs224n-assignments一些笔记:lec1
2017-06-03 11:21:01 3664
原创 Writing in the Sciences 课程笔记(论文的组织和写作)
4.2 写作过程的步骤1 写作前的构思收集、综合和组织信息头脑风暴take-home message离开电脑,理清思路构造一个大纲2 写初稿用一个有组织的方式,把你的事实和想法放在一起3 修改把你的论文大声的读出来(大脑对读出来的词和写出来的词处理方式是不一样的!)去掉clutter做一个动词检查(画出每个句子的主动词)做一个 organizatio
2016-11-01 19:37:52 1751
原创 Writing in the Sciences 课程笔记 (导论、句子和段落)
最近学完了 stanford 大学 Kristin Sainani 教授的 Writing in the Sciences 课程,收货很大!对于要做英语论文写作的同学,个人强烈推荐。即使不写论文,感觉对英语写作,甚至中文写作,个人说话时逻辑表达,都有很大帮助。课程可以在网上免费学习,网址: https://lagunita.stanford.edu/courses/Medicine/SciWr
2016-11-01 17:00:47 8073 2
原创 Writing in the Sciences 课程笔记 (如何审稿)
首要的,注意语气!一些建议:避免批评作者!批评论文本身。不要泛泛而谈;指出具体的错误。尽可能使用积极而不是消极的语言。例如:"The paper is poorly written." 可改为 "The writing and presentation could be improved. For example…"避免给作者“讲课”。审稿的过程(课程老师的方式
2016-11-01 16:20:46 1064
原创 《学术研究,你的成功之道》 读书笔记
这本凌晓峰和杨强老师写的,《学术研究,你的成功之道》,干货满满的探讨和指导了与研究有关的许多事情。读完之后,受益匪浅,诚心推荐给大家。一些读书笔记,记录在这里。第一章兴趣是研究的动力,创新是研究的核心,影响力是研究的成绩单,这三者相辅相成,相得益彰,是研究的本质。研究者的生活:1 探索和构思新想法。必须了解相关领域的最新发展,做大量文献检索工作。2 用实
2016-08-26 20:25:17 4304
原创 Leetcode 解题报告
据说刷完leetcode是准备编程面试的第一步。想到明年可能就要开始找工作了,先准备着吧。计划今年11月份前做完,大概平均每天2-3题,难度应该不大,贵在坚持!代码放在github上,地址:https://github.com/xingjian-f/Leetcode-solution简略解题报告1 Two Sum三种解法:1 暴力枚举所有的两两组合,检查它们的和是否等于
2016-06-20 15:58:43 10901
原创 《机器学习(周志华)》 阅读笔记
1 绪论1.1 引言(什么是机器学习:让计算机通过已有的经验进行学习,做出归纳和判断。)1.2 基本术语尽管训练样本集只是样本空间的一个很小的采样,我们仍然希望它能很好的反应出样本空间的特性,否则就很难期望在训练集上学得的模型能在整个样本空间上都工作很好。(因此,要想模型能够准确的预测未见过的样本,至少它需要见过和它很相似的样本!当然,迁移学习提供了另一种思路。) 通常假设样本空间中全体样本服从一
2016-06-14 14:48:52 4571 1
原创 《机器学习(周志华)》 习题9.4参考答案
实现K均值算法。。。书上的例子是错的!那个数据集,用书上选的那几个初始点,则一开始就是收敛的。实现时,顺便学了matplotlib.animation,可以把聚类过程用动态图显示出来。代码如下:# coding: utf-8import pandas as pd import numpy as np import matplotlib.pyplot as pltimport
2016-06-04 21:59:34 2293
原创 《机器学习(周志华)》习题11.1 参考答案
试编程实现Relief算法,并考察其在西瓜3.0上的结果。# coding: utf-8import numpy as np input_path = "西瓜数据集3.csv"file = open(input_path.decode('utf-8'))filedata = [line.strip('\n').split(',') for line in file]filedata
2016-05-30 18:36:38 2749 1
原创 CNN 可视化结果分析
可视化结果分别从以下几个角度做分析:1 看每个卷积层经过激活函数(relu)后的输出图像第一个卷积层的结果(相对比较容易懂):为了方便人眼观察,对每一幅图的像素值都做了一个放大,做法是除以这幅图的最大像素值然后乘以255。灰度图中越亮的部分,就说明原来的值越大。注意,这样的做法导致,不同的图中比较像素点的相对亮度是没有意义的。原图:
2016-04-28 13:12:34 7377 5
原创 Deep Learning (Ian Goodfellow, Yoshua Bengio and Aaron Courville) 阅读笔记
Ian Goodfellow, Yoshua Bengio and Aaron Courville 合著的《Deep Learning》 终于写完了,并且放在网上可以在线免费阅读。网址:http://www.deeplearningbook.org一些笔记整理于此。
2016-04-23 11:15:54 10278
原创 CNN 识别图形验证码
用卷积神经网络预测可变长的验证码,模型用的谷歌的这篇《Multi-digit Number Recognition from Street View Imagery using Deep Convolutional Neural Networks》。代码在github上:https://github.com/xingjian-f/Captcha-hacker.git
2016-04-13 18:34:01 6962
原创 《机器学习(周志华)》 习题5.5答案
编程实现标准BP算法(sgd)和累积BP算法(fullbatch),在西瓜3.0上训练一个单隐层网络,并进行比较。需要先把字符串转成数字,这里用one-hot。把二分类问题看成多分类问题的特例,然后用softmax。最终模型在训练集上可达到100%准确率,并且在西瓜3.0@上也可以达到100%,与前面的逻辑回归相比,多了一个隐层的非线性变换,模型的表达能力确实强大了很多!经试验,隐层大小至
2016-04-05 20:24:26 3770
原创 《机器学习(周志华)》习题3.3答案
编程实现对率回归,并给出西瓜数据集3.0@上的结果。对率回归即逻辑回归,可以看做没有隐藏层的,用sigmoid做激活函数,crossentropy做cost(不加regularization)的神经网络。本题用theano实现,调参时,learning rate 设为1,更大则cost会出现震荡,迭代次数设为10000可收敛,但是,训练效果并不好,最高准确率也只有70%。简单分析,根据前面
2016-04-05 13:59:19 5266 1
原创 《机器学习(周志华)》习题10.1 答案
编程实现K邻近分类器,在西瓜数据集3.0@(属性只有密度与含糖率)上,比较其分类边界与决策树分类边界之异同。KNN决策面图如下:
2016-04-03 14:30:01 4997
原创 《机器学习 (周志华)》习题7.3答案
编程实现拉普拉斯修正的朴素贝叶斯,西瓜3.0训练集,“测1”样本测试。不加拉普拉斯修正跑的数据,部分和书上不一致(P(蜷缩,是)和P(凹陷,是)),经检查是书中错误。代码如下:# coding: utf-8import mathimport numpy as npfile = open('西瓜数据集3.csv'.decode('utf-8'))filedata = [line
2016-04-01 15:41:47 3799
原创 《机器学习(周志华)》 西瓜数据集3.0
书上的一个常用数据集编号,色泽,根蒂,敲声,纹理,脐部,触感,密度,含糖率,好瓜1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,0.697,0.46,是2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,0.774,0.376,是3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,0.634,0.264,是4,青绿,蜷缩,沉闷,清晰,凹陷,硬滑,0.608,0.318,是5,浅白,蜷缩,浊响,清晰,凹陷,硬滑,0.
2016-03-24 14:23:40 31334 9
原创 《机器学习(周志华)》 习题4.3答案
问题:编程实现基于信息熵(信息增益)进行划分进行划分选择的决策树算法,并为表4.3(西瓜数据集3.0)中数据生成一棵决策树。代码生成结果与书本结果基本一致,唯有(触感=硬滑)和(触感=软粘)时我的答案分别是(坏瓜)和(好瓜),而书本答案恰好相反。这里应为书本错误,因为根据数据人肉眼判定,稍糊硬滑的数据都为否,稍糊软粘数据都为是。如果有和我结论不一致的同学,欢迎指正!感谢ICS_的指出,在周老师
2016-03-24 14:09:02 7278 6
原创 Neural Networks for Machine Learning 课程笔记
Cousera 上 神经网络大神 Geoffrey Hinton 的课程,课程笔记整理与此。
2015-12-16 11:29:33 2449 1
原创 PageRank算法 python单机实现
海量数据挖掘课的编程作业。实现PageRank,计算某个网页最终的rank值,数据是谷歌提供的。作业反馈结果显示,代码正确。一共进行了26次迭代,总共运行时间83s。数据链接http://snap.stanford.edu/data/web-Google.txt.gz。代码:from math import fabsfrom time import timedata =
2015-10-24 20:32:08 4997 4
原创 San Francisco Crime Classification(Kaggle)
Predict the category of crimes that occurred in the city by the bayFrom 1934 to 1963, San Francisco was infamous for housing some of the world’s most notorious criminals on the inescapable island of Al
2015-09-14 22:55:40 3750 2
原创 Bike Sharing Demand (Kaggle)
Forecast use of a city bikeshare systemBike sharing systems are a means of renting bicycles where the process of obtaining membership, rental, and bike return is automated via a network of kiosk l
2015-03-09 19:18:03 3756
原创 Digit Recognizer (Kaggle)
This competition is the first in a series of tutorial competitions designed to introduce people to Machine Learning.The goal in this competition is to take an image of a handwritten single digit,
2015-02-04 19:56:44 4304
原创 Titanic: Machine Learning from Disaster(Kaggle 数据挖掘竞赛)
Predict survival on the Titanic (with tutorials in Excel, Python, R, and an introduction to Random Forests)The sinking of the RMS Titanic is one of the most infamous shipwrecks in history. On Apr
2015-01-15 16:27:10 6608
原创 NEERC2012 Caravan Robbers
Problem C. Caravan RobbersInput file: caravan.inOutput file: caravan.outLong long ago in a far far away land there were two great cities and The Great Caravan Road betweenthem. Many robber gangs
2014-11-21 10:45:07 1366
原创 zoj 3263 Immaterial and Missing Power (二分)
Immaterial and Missing PowerTime Limit: 8 Seconds Memory Limit: 32768 KB Special JudgeSpring has passed by the land of Gensokyo, a reclusive realm in the far east, and the cherry tre
2014-11-13 16:49:17 1581
原创 NEERC 2013 Dwarf Tower (最短路)
Problem D. Dwarf TowerInput file: dwarf.inOutput file: dwarf.outTime limit: 2 secondsMemory limit: 256 megabytesLittle Vasya is playing a new game named “Dwarf Tower”. In this game there are n
2014-11-12 14:28:48 1733
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人