python
adam-liu
paaaaaper
展开
-
【API爬虫】30分钟百万条新浪新闻信息爬取。python得极速之旅
请参考源码,文字是最先得想法,没有再做更改。源码以更新前期准备:requests库:使用pip install requests 安装。 pymongo库:使用pip install pymongo安装。首先分析目标url:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml这个url的规律很容易发现,我们通过更改index后面的数字...原创 2018-01-23 00:56:31 · 5413 阅读 · 2 评论 -
如何构建一个新闻搜索引擎
首先展示一下项目效果图:前言:本项目会指导大家从零开始开始构建一个针对于新浪新闻的搜索引擎.首先我们明确一下我们的目标和所需要做的工作:目标:构建一个搜索引擎所需工作:准备数据 一个搜索引擎的查询算法 一个为每个新闻的推荐其他相似新闻的算法所以下面我会分这三个部分来介绍这个项目,目前这个项目已经开源.开源的地址:https://github.com/ls...原创 2019-06-05 12:02:46 · 4627 阅读 · 0 评论 -
Python编程实现对2个字符串最长的公共子串的多种求解方式,性能测试及优化
解法1-暴力求解法:def LongestCommonSubstring(FirstString,SecondString): ''' 求最长子串解法1: 以字符串1的每个汉字作为起始位置 去字符串2中找到能与之匹配的最长长度 将这个长度和记录的最长长度比较,从而找到最长的子串长度 然后通过字符串2的起始位置和最长长度,找到这个子串 ...原创 2018-10-24 17:45:47 · 3150 阅读 · 0 评论 -
【决策树DT】 算法原理 公式推导 python编程实现
1.信息增益 1.1 信息熵 在信息论中,信息熵度量样本集合纯度是最常用的一种指标,信息熵用来描述信源的不确定度。例如:A=太阳从东方升起 B=太阳从西方升起 对于句子A,确定度很高,基本为必然事件。其信息熵较低,所含的信息量很小。 对于句子B,不确定性特别高,基本不可能发生,所以其信息熵很高,所含信息量很大。 ...原创 2018-09-03 19:05:24 · 2690 阅读 · 1 评论 -
【逻辑回归LR】算法原理 公式推导 python编程实现
学习笔记,TensorFlow实现源码地址:https://github.com/lsq960124/DeepLearning/blob/master/TensorFlow%20notes/TensorFlow%20basis03.ipynb1.在二分类问题中,对于每个观察样本: 这个公式很好理解,拆分开来可以这样表示: ...原创 2018-08-28 13:15:16 · 1528 阅读 · 0 评论 -
将数据导入Hive数据库中,使用python链接Hive读取数据库,转化成pandas的dataframe
做互联网应用开发过程中,时常需要面对海量的数据存储及计算,传统的服务器已经很难再满足一些运算需求,基于hadoop/spark的大数据处理平台得到广泛的应用。本文提供一个导入数据到hive,用python读取hive数据库的例子。这实际是个比较简单的操作,但是还是存在很多坑。 1.首先第一步需要将Mysql或者其他数据库的文件导出成CSV文件格式。当然如果你做爬虫,可以直...原创 2018-06-22 16:46:06 · 20422 阅读 · 2 评论 -
【Flask-Ajax-Echarts】 python实现新浪微博数据分析并实时展示在Flask服务器上
需要工具: python3.6 pandas Flask china.json echarts.js element.js jQuery.js,map.js,vue.js 需要数据集: 新浪微博用户数据集.csv 数据集一览:用pandas读入数据集放在内存中,Flask接收到Ajax传入的请求,将数据整理分析打包成json返回前端,前端通过echarts做可视化。后端flask模块...原创 2018-05-25 17:27:02 · 3342 阅读 · 2 评论 -
【NLP】词频统计的3中方法,时间复杂度,空间复杂度对比。
#第一种办法import re from collections import Counterdef get_max_value_vl(text): text = text.lower() result = re.findall('[a-zA-Z0-9]',text) #去掉列表中的符号 count = Counter(result) #词频统计 c...原创 2018-04-24 09:37:13 · 1354 阅读 · 0 评论 -
panda DataFrame 数据合并,连接(merge,join,concat)
merge 通过键拼接列pandas提供了一个类似于关系数据库的连接(join)操作的方法<Strong>merage</Strong>,可以根据一个或多个键将不同DataFrame中的行连接起来语法如下[python] view plain copymerge(left, right, how='inner', on=None, left_on=None, right_...转载 2018-04-23 10:33:05 · 13639 阅读 · 0 评论 -
逻辑回归,决策树,随机森林,KNN,高斯贝叶斯模型在智联招聘招聘信息的机器学习表现
1.算法讲解:决策树(Decision Tree) 决策树很通俗直观哈。我们在一次次按条件将训练数据分割的过程,就是一个训练的过程。就像我们不停地问问题,不停地用排除法,最后得出结果。 如图所示,工作年龄小于2是第一个分割节点。把所有招聘信息工作年龄小于2年的放到图的左边分支,大于等于2年的放到右边。一个点产生两个分支(我们也可以设置多个分支)。然后对...原创 2018-04-16 17:49:50 · 3442 阅读 · 3 评论 -
关于智联招聘招聘信息的机器学习模型
之前发布了一个对求职信息的网页爬虫,这之后做了一些机器学习的探索,这段时间项目基本介绍了,整理一下发布出来,供大家交流。3基于逻辑回归的岗位分类器设计 3.1 ;逻辑回归算法简介假设数据集有n个独立的特征,x1到xn为样本的n个特征。常规的回归算法的目标是拟合出一个多项式函数,使得预测值与真实值的误差最小:而我们希望这样的f(x)能够具有很好的逻辑判断性质,最好是能够直接表达具有特征x的样本被分到...原创 2018-04-16 09:18:37 · 2452 阅读 · 3 评论 -
【python】多进程+多线程 制作智联招聘爬虫 写入CSV+mongodb
前期准备:这次爬虫用的都是python自带的包,所以只用准备一个pymongo用于mongodb数据库连接就可以了pip install pymongo第一步:目标站点分析url = ‘http://sou.zhaopin.com/jobs/searchresult.ashx?p=0&jl=%E5%85%A8%E5%9B%BD&kw=%E5%A4%A7%E6%95%B0%E原创 2018-02-04 22:38:40 · 2814 阅读 · 0 评论 -
如何构建一个图书推荐系统
首先展示一下项目:前言 本项目会指导大家从零开始开始构建一个针对于图书的推荐系统。首先我们明确一下我们的目标和所需要做的工作:目标:打造一个图书推荐系统功能: 热门书籍 将评分排名最高的几本书推荐给用户 猜你喜欢 通过数据库SQL语句实现 ”看了这本书的人也看了XX书“ 主要逻辑是...原创 2019-06-05 15:03:40 · 9626 阅读 · 6 评论