- 博客(13)
- 收藏
- 关注
原创 python爬虫基础概念
1.什么是爬虫?网页爬取的流程是怎么样的?爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。原则上,只要浏览器展示出来的数据,爬虫都可以拿的到。爬虫一般的主要流程为:构建url、发送请求获取响应、提取数据和数据入库等操作。大体如下图所示:2.python 爬虫有哪些常用第三方库,分别用在哪些环节?...
2020-01-17 15:19:14 272
原创 十个python学习小技巧(3分钟搞定)
1. 唯一性以下方法可以检查给定列表是否有重复的地方,可用set()的属性将其从列表中删除。def all_unique(lst): return len(lst) == len(set(lst))x = [1,1,2,2,3,2,3,4,5,6]y = [1,2,3,4,5]all_unique(x) # Falseall_unique(y) # True2. 变位...
2020-01-16 17:52:07 305
转载 企业数字化转型方法论
用区块链从新定义生产关系,用云量、用数量、移动指数、物联网指数、数据的应用和开放能力重新定义生产力,实现现代企业的五化管理工作移动化、数据产品化、分析可视化、管理云化、业务社交化。笔者认为这就是企业数字化转型的要做的事情,总结起来就是:一个平台,两个核 心技能,三个阶段,四个战略内容,五化建设,即企业的数字化转型的12345。具体来说:一个平台是指,一个拥有大数据和人工智能各...
2020-01-16 16:43:49 3426 1
原创 Windows下开启postgre远程连接权限
1.找到postgresql.conf文件,注意安装路径D:\Program Files (x86)\PostgreSQL\9.3\data2.打开该文件,注意以下内容,确认为下面内容后,进行下一步listen_addresses = '*'3.打开pg_hba.conf文件,注意以下内容# IPv4 local connections:host all ...
2020-01-16 15:18:18 605
转载 为什么使用了索引,查询还是慢
经常有同学问我,我的一个SQL语句使用了索引,为什么还是会进入到慢查询之中呢?今天我们就从这个问题开始来聊一聊索引和慢查询。另外插入一个题外话,个人认为团队要合理的使用ORM,可以参考ORM的权衡和抉择(http://rrd.me/f9jCg)。合理利用的是ORM在面向对象和写操作方面的优势,避免联合查询上可能产生的坑(当然如果你的Linq查询能力很强另当别论),因为ORM屏蔽了太...
2020-01-15 16:44:03 1019
转载 十大经典算法动图演示+python实现(超详细)
排序算法是《数据结构与算法》中最基本的算法之一。 排序算法可以分为内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。常见的内部排序算法有:插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。用一张图概括:1、冒泡排序关于时间复杂度:平方阶 (...
2020-01-14 18:04:41 1126
原创 使用kettle连接SQL Server数据库详细教程
默认你的kettle安装环境是没有问题,如果是kettle的连接问题可以参考以前文章有详细的教程,这里主要讲用kettle连接SQL Server数据库1、先打开kettle2、找到工具-探索资源库-连接3、按照上图所示步骤把相应的地方4、打开探索资源库就可以看到新建的数据连接如果连接不成功可能原因:1、检查是否忘了最上面的连接名,它会有提示2、...
2020-01-14 17:26:09 7516
原创 使用kettle如何修改表输出PGSQL库中的字段名称
由于在建数据仓库的时候,输入表连接的库是数据源,输出库连接的数据PGSQL。为了实现:在kettle中的修改方法如下:在这里修改完毕之后,就可以在数据库中再建事实表,设定好主键与外键就可以完成维度表与事实表的建立。...
2020-01-09 09:00:07 1092
转载 python面试有这110道题就够了(附答案)
1、一行代码实现1--100之和利用sum()函数求和2、如何在一个函数内部修改全局变量函数内部global声明 修改全局变量3、列出5个python标准库os:提供了不少与操作系统相关联的函数sys: 通常用于命令行参数re: 正则匹配math: 数学运算datetime:处理日期时间4、字典如何删除键和合并两个字典d...
2020-01-07 18:07:20 5465
转载 kettle资源库、运行方式与日志
kettle学习笔记(三)——kettle资源库、运行方式与日志一、kettle资源库 资源库是用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在资源库中。 资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称。 1.ketle资源库元数据 • 资源库 资源库包括文件资源库、数据库资源库 ...
2020-01-07 17:50:49 727
原创 PGSQL如何判断一个空值字段,并将NULL值修改为其它值
在使用pgsql时,想要取到某些字段不为空或者为空的数据,可以用以下方法:1、不为空Select * From table Where id<>''Select * From table Where id!=''2、为空Select * From table Where id=''Select * From table Where ISNULL(id)如果...
2020-01-07 16:58:05 15159
原创 数据仓库项目之---三种事实表的差异对比
三种基本表的类型:事物事实表、周期快照事实表、累计快照事实表名称 事物事实表 周期快照事实表 累积快照事实表 周期 离散事物时间点 以有规律的、可预测的间隔产生快照 用于时间跨度不确定的不断变化的流水线/工作线 粒度 每个事物或者事务线的一行 每个快照周期加上其它维度的一行 每次管道事件的一行 日期维度 事务日期 快...
2020-01-06 17:47:46 728 4
原创 连线被拒,请检查主机名称和埠号,并确定 postmaster 可以接受 TCP/IP 连线
错误如下:org.postgresql.util.PSQLException: 连线被拒,请检查主机名称和埠号,并确定 postmaster 可以接受 TCP/IP 连线。 at org.postgresql.core.v3.ConnectionFactoryImpl.openConnectionImpl(ConnectionFactoryImpl.java:136) at org.po...
2020-01-06 16:23:12 5253
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人