自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 收藏
  • 关注

原创 0001-数据分析面试题

1、北极星指标2、AB测试。

2024-04-16 13:34:02 116

原创 简历面试题

KNN:逻辑回归:和线性回归有什么不同SVM:高斯核函数适用什么场景,还有哪些核函数。说一下原理K-means:DBScan:原理TF-IDF:一些反讽文本怎么做情感分析决策树:训练完回归树后,预测的结果是如何评估或者计算得到的随机森林:怎么确定树的个数朴素贝叶斯:朴素贝叶斯的原理和公式Apriori:支持度和置信度还有提升度是什么意思,和FP-Growth的区别FP-Growth:原理时间序列ARMA:p和q如何确定...

2020-12-29 13:57:48 259

原创 数据分析面试题

1请解释如何在Excel上设计动态图表2请列出5个你认为用Excel做资料分析最常用的函数3请解释SQL语句中的row_number用法4现在有两张表AB,A表有8条记录,B表有10条记录,有7条资料是量表共有,若table A full join table B结果会有几条记录,答案:115请自举一个例子说明Regression analysis在分析上的意义6请重组以下文章,对领导更有效率的汇报:报告领导,我问了旅行社的飞机时间,周二周三都有班级可以抵达您开会的地点两天各时段的班机若现在提前预

2020-12-18 22:43:29 624 4

原创 AI面试题

1.为什么要对特征做归一化(理解清楚特征归一化所适用的模型场景)2.什么是组合特征?如何处理高维组合特征?(这里的特征组合主要指的是类别特征(Categorical Feature)之间的组合)3.()4.()5()6()7()8()9.()10.()11.()12.()13.()14.()15.()16.()17.()18.()19.()20.()21.()22.()23.()24.()25.()26.()27.()28.()29.()30.()

2020-11-11 18:23:32 3346

原创 数据分析复习

sql的exploderankover

2020-10-22 17:55:15 158

原创

1.最兴奋的是规划,最痛苦的是实施,最无聊的是得到import urllib.request# 1 0 2 50 3 100 4 150 5 200import json# import picklefrom lxml import etreeimport urllib.parseimport time

2020-10-18 12:43:41 105

原创 ip代理

import urllib.request# 1 0 2 50 3 100 4 150 5 200import json# import picklefrom lxml import etreeimport urllib.parseimport timexp1='//*[@id="list"]/table/tbody/tr/td[1]/text()'xp2='//*[@id="list"]/table/tbody/tr/td[2]/text()'url_kuai="https:

2020-10-12 11:43:25 253

原创 Centos7.6下安装Python3.7

1.首先来看一下系统版本[root@python3 ~]# cat /etc/redhat-release CentOS Linux release 7.6.1810 (Core)2.更新一下yum源,yum源我这里用的都是阿里云的源[root@python3 ~]# cat /etc/redhat-release CentOS Linux release 7.6.1810 (Core)3.安装python3.7之前需要先安装一些依赖,,这也是上面更新yum源的原因[root@python

2020-09-24 14:09:01 212

原创 爬虫验证码登录三种方式

import requestsfrom bs4 import BeautifulSoup'''手动输入验证码:用浏览器登录古诗文网,抓包获取登录接口和form表单; 将验证码图片下载,输入验证码,加入form表单; 获取form表单所需参数; 带着form表单发送登录请求 注:需要建立会话'''headers = {'User-Agent': 'M

2020-09-23 18:02:55 767

原创 python操作mysql数据库增删改查

import pymysqlconn = pymysql.connect(host = ‘主机地址’,port = 3306,user = ‘用户名’,passwd = ‘密码’,db = ‘数据库’)#创建连接(连接数据库)cursor = conn.cursor() #创建游标cursor = conn.cursor(cursor=pymysql.cursors.DictCursor) #设置游标格式为字典格式,即取值时会以字典的形式呈现r = cursor.execute(‘sele

2020-09-22 20:15:49 123

原创 第02讲:Hadoop 发行版选型和伪分布式平台的构建

本课时主要介绍 Hadoop 发行版选型以及伪分布式平台的构建。Hadoop 发行版介绍与选择到目前为止,你应该初步了解了大数据以及 Hadoop 相关的概念了。本课时我将介绍 Hadoop 如何快速使用,由于 Hadoop 平台的构建过程相当复杂,它涉及系统、网络、存储、配置与调优,但为了能让你尽快尝鲜体验一下 Hadoop 的功能和特性,我们先一起构建一个伪分布式 Hadoop 集群,也就是一个假的 Hadoop 集群,麻雀虽小,但五脏俱全。伪分布式 Hadoop 集群能够实现 Hadoop 的所

2020-09-19 14:07:43 195

原创 hadoop环境搭建

1.JDK所有系统版本镜像下载地址https://repo.huaweicloud.com/java/jdk/2.hadoop镜像下载地址https://mirror.bit.edu.cn/apache/hadoop/core/

2020-09-18 14:06:36 145

转载 Python——安居客租房信息爬取(以南昌为例)

前言:提前安装好所需要的库。本代码的输入仅需要某个城市的租房地址首页即可,其他自会生成。使用前请创建所需的目录,或者为代码添加os.makedir()支持断点重爬,重行运行即可。headers等随运行环境不同,可能需要进行修改。本代码使用了高德API key,用于获取地理坐标,但发布时已略去,如需使用,请注册高德api开发者。内容原创,引用请注明出处。Note: http://www.cnblogs.com/shadrach; author: shadrach@yeah.net。# auth

2020-09-07 14:27:01 1171

转载 地图api接口

# 官方API: http://lbs.amap.com/api/webservice/guide/api/convert# 坐标体系说明:http://lbs.amap.com/faq/top/coordinate/3# GCJ02->WGS84 Java版本:http://www.cnblogs.com/xinghuangroup/p/5787306.html# 验证坐标转换正确性的地址:http://www.gpsspg.com/maps.htm# 以下内容为原创,转载请注明出处。im

2020-09-07 14:19:37 1785

原创 安居客租房价格字体反爬

import requestsfrom lxml import etreeimport reimport timeimport randomimport csvfrom fontTools.ttLib import TTFontimport base64import ioimport pandas as pd# 关闭InsecureRequestWarning提示import urllib3urllib3.disable_warnings()def decode_base64(f

2020-09-05 10:12:56 509

原创 2020年最新WIN10系统安装10.2CUDA和CUDNN和TensorFlow和pytorch教程

1.下载cuda和cudnnCUDA:https://docs.nvidia.com/cuda/cuda-installation-guide-microsoft-windows/index.htmlcuDNN:https://docs.nvidia.com/deeplearning/sdk/cudnn-install/index.html#installwindows官网下载速度慢,已上传,可以直接下这里我下载的版本是先下载链接:https://pan.baidu.com/s/15SRGSE

2020-08-31 17:52:48 1427

原创 利用ip代理池爬取链家网上海所有小区和详情信息,存进数据库

1.爬虫dis=['浦东','闵行','宝山','徐汇','普陀','杨浦','长宁','松江','嘉定','黄浦','静安','虹口','青浦','奉贤','金山','崇明']tb=pd.DataFrame(columns=['title_小区名','title_区域','title_挂牌均价','title_建筑年代','title_建筑类型','title_物业费用','title_物业公司','title_开发商','title_楼栋总数','title_房屋总数'])num=1for j

2020-08-27 11:01:57 705

转载 产品经理需要了解的推荐算法之——个性化推荐算法2(基于用户)

转自:https://zhuanlan.zhihu.com/p/279634553.2 基于用户的协同推荐终于,经过团队的努力,你的产品已经有了大量活跃用户了,这时候你开始不满足于现有的算法,虽然基于内容的推荐已经很精准了,但总是少了那么一点性感,因为你所有给用户的内容都是基于他们的阅读习惯推荐的,没能给用户“不期而遇”的感觉。于是你就开始做基于用户的协同过滤了。基于用户的协同过滤推荐算法,简单来讲就是依据用户A的阅读喜好,为A找到与他兴趣最接近的群体,所谓“人以群分”,然后把这个群体里其他人喜欢的

2020-08-14 11:59:19 734

转载 产品经理需要了解的推荐算法之——个性化推荐算法1(基于内容)

转自:https://zhuanlan.zhihu.com/p/279317933. 个性化推荐OK,现在你的内容产品顺利度过了早期阶段,拥有了几万甚至十几万级别的日活,这时候发现热度算法导致用户的阅读内容过于集中,而个性化和长尾化的内容却鲜有人看,看来是时候开展个性化推荐,让用户不仅能读到大家都喜欢的内容,也能读到只有自己感兴趣的内容。个性化推荐一般有两种通用的解决方案,一是基于内容的相关推荐,二是基于用户的协同过滤。由于基于用户的协同过滤对用户规模有较高要求,因此更多使用基于内容的相关推荐来切入。

2020-08-14 11:56:30 747

转载 电商推荐算法-前言

摘自:https://zhuanlan.zhihu.com/p/27905091产品经理需要了解的推荐算法之——热度推荐原理和实施#今日头条的走红带动了“个性化推荐”的概念,自此之后,内容型的产品,个性化算法就逐渐从卖点变为标配。伴随着“机器学习”,“大数据”之类的热词和概念,产品的档次瞬间提高了很多。而各种推荐算法绝不仅仅是研发自己的任务,作为产品经理,必须深入到算法内部,参与算法的设计,以及结合内容对算法不断“调教”,才能让产品的推荐算法不断完善,最终与自己的内容双剑合璧。本文以新闻产品为例,结合

2020-08-14 11:50:28 1007

原创 python之pandas的dataframe用sqlalchemy导入mysql数据库

1 导包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom statsmodels.tsa.arima_model import ARMAfrom sqlalchemy import create_engineimport warnings2 连接数据库conn = create_engine('mysql+mysqldb://用户名:密码@127.0

2020-08-11 20:55:59 1346

原创 pandas读取数据库整数形式的19位数据长度的float类型精度大坑!!!!

pandas读取数据库order订单表,字段userid在mysql里是bigint19位数字,用pandas.read_sql()连接后,因为userid有空值,也就是nan,会把这个userid列转为float类型,获得的数据精度丢失之前我盲目的看网上教程,说什么把float→int64,或者float→str,结果都不行,因为获取的数据就是6结尾,最后我想到一个办法就是源头错误那就源头解决,读取数据库的时候筛选非空行df=pd.read_sql('select * from table wher

2020-08-06 20:03:34 1528

原创 Kmeans

11111111111111111111111111111111111111111111111111111获取最近的K-means中心点示例,KMeans,样本import numpy as npimport pandas as pdfrom sklearn import datasets as DSimport matplotlib.pyplot as pltdef euclideanDist(A, B): return np.sqrt(sum((A - B) ** 2))def

2020-08-03 14:30:04 99

原创 pndas的dataframe取消科学计数法显示

1可以把列转换为str类型res_最终修改[['__adb_auto_id__','簇','position_latitude_中心点','position_longitude_中心点']] = res_最终修改[['__adb_auto_id__','簇','position_latitude_中心点','position_longitude_中心点']].astype('str')2保留小数点...

2020-08-03 10:58:18 2328

原创 情书python

你是无意穿堂风 却偏偏引山洪

2020-07-08 00:05:39 957

原创 pandas,python笔记

pd.DataFrame({‘Name’:[‘Alen’,‘Bob’,‘Cidy’,‘Daniel’,‘Ellen’,‘Frankie’,‘Gate’,‘Hebe’],‘Gender’:[‘Male’,‘Male’,‘Female’,‘Male’,‘Female’,‘Male’,‘Male’,‘Female’],‘age’:[18,19,18,20,17,21,20,22],‘Score’:[80,90,93,87,96,100,88,98]})...

2020-06-06 14:06:05 150

原创 sklearn用法

特征工程:from sklearn.datasets import make_blobs,from sklearn.datasets import make_circles,from sklearn.metrics import silhouette_score 聚类评估算法:from sklearn.cluster import KMeans,DBSCAN

2020-06-05 12:12:43 124

转载 sql经典50题代码

CREATE TABLE Student( s_id VARCHAR(20), s_name VARCHAR(20) NOT NULL DEFAULT '', s_birth VARCHAR(20) NOT NULL DEFAULT '', s_sex VARCHAR(10) NOT NULL DEFAULT '', PRIMARY KEY(s_id));CREATE TABLE Course(c_id VARCHAR(20),c_name VARCHAR(20) NOT NULL.

2020-05-27 13:05:31 290

原创 ajax-get请求爬虫

# http://vip.stock.finance.sina.com.cn/quotes_service/api/json_v2.php/Market_Center.getHQNodeDataSimple?# page=1&num=40&sort=symbol&asc=1&node=hs_z&_s_r_a=init# http://vip.stock.finance.sina.com.cn/quotes_service/api/json_v2.php/Ma..

2020-05-25 16:54:07 318

原创 分类、聚类、回归、降维算法

KNN适用于数值型、二维数据KDTREEfrom sklearn.neighbors import KNeighborsClassifier as knnfrom sklearn.model_selection import GridSearchCV,train_test_split

2020-05-24 00:20:08 517

原创 特征工程和网路搜索交叉验证

正则化①解决了过拟合②避免了不可逆矩阵

2020-05-19 13:01:01 202

原创 数据分析指标

留存率

2020-05-18 19:32:44 1734

原创 python数据分析算法

关联关系①Apriori②FP-Growth

2020-05-14 20:49:52 312

原创 python之web面试题

字典插入一个元素存在就不操作,不存在给他一个默认值.中间件的作用git删除分支切换分支命令,linux查找一个文件的命令whereis列表删除的4个方法str=[=4,5,2,6]①str.remove(6)②str.pop(1)③del str[1] 或者 del str[2:4]④str.clear()flask蓝图的作用蓝图也是一种规划,主要用来规划urls(路由),把views和manager.py连接上python多线程,python..

2020-05-11 12:26:32 293

原创 django项目

virtualenvs .venvsource .venv/bin/activate.ignoregit文件 添加.vscode/.idea/logs/.DS_Storepip install mysqlclient 安装mysql数据库pip install requests 短信开发pip install gunicorn 线上部署pip install celery 异步...

2020-04-28 18:58:06 140

原创 python统计分析笔记

patsy 0.4.1用于统计学公式statsmodels 0.8.0用于统计学建模和高级分析xlrd 0.9.4用于读写微软Excle文件PyMX 2.3.6用于贝叶斯统计,包括马尔科夫链蒙特卡洛模拟scikit-learn0.17.1用于机器学习scikits.bootstrap 0.3.2位scipy提供自助法置信区间算法lifelines 0.9.1.0在python中进行生存...

2020-04-27 09:33:00 204

原创 Windows安装git使用

下载https://git-scm.com/downloads 速度很慢https://npm.taobao.org/mirrors/git-for-windows/ 速度快

2020-04-23 22:24:17 255

原创 云主机服务器centOS系统nginx项目部署环境搭建配置详细步骤

这次项目用的是python框架tornado写的小项目,从Windows系统上传到云端并且上线可访问。1)先下载所需要的环境mysql+nginx,有一个简单快捷的方式,用oneinstack(https://oneinstack.com/auto/)生成一键下载这些包的连接,我这里生成的是wget -c http://mirrors.linuxeye.com/oneinstack-full....

2020-04-09 20:57:59 250

原创 python易错点

1)a = ‘abcdefghijklmnopqrst’print(a[::-1])tsrqponmlkjihgfedcbaa[::-1]是将数组所有元素逆置2)a = ‘abcdefghijklmnopqrst’a.replace(‘l’, ‘p’, 1)count默认值是 -1,表示替换所有的值3)rfind找到最后一次出现的下标 index查不到会报错4)splitlines...

2020-04-09 19:17:13 227

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除