- 博客(21)
- 收藏
- 关注
原创 爬虫基础
简单爬虫import urllib2import urllibresponse=urllib.urlopen("https://www.douban.com/")print response.read()爬虫伪装浏览器-检查-network-XHR-request headers-User-Agent
2017-01-11 20:06:23 453 1
原创 excel函数
日期函数 WEEKDAY(A2,2) 返回某天为星期几,A2为日期格式 TEXT(A2,”yyyymm”) 将A2的日期形式转为文本形式
2017-01-10 21:17:57 419
原创 tableau安装
法一:Mac终端修改step1:sudo vi /etc/hostsstep2:password:step3:i,enterstep4:输入需要添加的内容step5:先按Esc 然后再按shift+: 冒号step6:输入wq 保存并退出法二:文件夹修改step1:shift+command+G,调出前往文件夹step2:输入路径参考链接: 下载地址 mac修改host文件
2017-01-07 23:41:23 2042
原创 ODBC介绍
Tableau 和 ODBC ODBC 代表 Open Database Connectivity(开放式数据库连接),是允许各种软件访问数据的行业标准。ODBC 的基本前提是 SQL 查询的标准语法,软件应用程序使用该语法连接到数据库并从数据库请求数据。几乎总是由数据库制造商提供的 ODBC 驱动程序接受采用此标准语法的请求,并将请求转换为目标数据库喜欢的本机格式。ODBC 驱动程序实际上只是一
2017-01-03 23:28:02 1228
原创 postgreSQL学习资料
PostgreSQL 9.4.4 中文手册博客随笔SQL优化(四) PostgreSQL存储过程Navicat for PostgreSQL 使用教程
2017-01-02 18:49:02 696
原创 爬虫框架scrapy,爬取豆瓣电影top250
1 . 新建项目进入打算存储代码的目录,命令行运行如下语句 scrapy startproject tutorial2 . 定义Itemimport scrapyclass DoubanItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() title
2016-12-31 23:09:11 7732 2
原创 函数
存储过程与函数:PL/SQL块分类匿名块:不保存在数据库;无名称;不可重复调用命名块:保存在数据库中;有名称;可重复调用 常见命名块:存储过程、函数、包、触发器存储过程VS函数相同: 都是一个子程序,用来完成特定功能不同: 存储过程:无返回值;可以独立调用函数:必须包含一个返回值;只能作为表达式的一部分使用
2016-12-23 21:56:18 655
原创 环境变量的配置
postgreSQL增加环境变量- Mac OS增删环境变量1 . 首先查看shell版本 echo $SHELL #Mac OS X 10.3之后默认的是Bourne Shell2 . 针对Bourne Shell添加环境变量打开~/.bash_profile 文件 touch ~/.bash_profile open -t ~/.bash_profile 新增环境变量
2016-12-21 11:32:45 479
原创 Sublime text 2不支持raw_input输入的问题
1、command+shift+P,调出工具,输入install packages,安装SublimeREPL2、选择包含raw_input的py文件,顶部标签栏tools-sublimerepl-python-run current file3、推荐双窗口运行,便于比较 view-layout-columns:2注:未免避免报错,先将.py文件 command+s保存后,在run current
2016-12-17 18:36:11 1110
原创 爬取人人贷
import sys reload(sys) sys.setdefaultencoding("utf-8") import urllib2 import urllib import re import pandas as pdimport numpy as npimport matplotlib.pyplot as plturl='https://www.we.com/loa
2016-12-14 14:45:46 3755 1
原创 文章标题
Mac 上安装和使用PostgreSQL的方法存储过程定义http://www.yiibai.com/html/postgresql/2013/080784.htmlhttp://www.postgres.cn/docs/9.4/plpgsql-statements.html
2016-12-13 20:19:34 284
原创 埋点
客户端埋点 Vs. 在后端记录 Event友盟、百度统计等传统分析工具,都是在客户端嵌入 SDK 进行埋点,但是,我们强烈推荐在后端记录 Event,这是出于以下一些考虑: 1、很多行为,如下单等,他们的很多字段在前端(App 和 Web 界面)是拿不到的。甚至有些行为,如用户线下消费等,前端根本就没有提供相应的功能,就更拿不到对应的数据。 2、后端修改程序更加方便便捷,如果是在 App 端记录数
2016-12-10 23:18:41 1104
原创 python爬取百度贴吧
import sysreload(sys)sys.setdefaultencoding('utf-8')import urllib2 import re#----------- 处理页面上的各种标签 ----------- class HTML_Tool: # 用非 贪婪模式 匹配 \t 或者 \n 或者 空格 或者 超链接 或者 图片 BgnCharToNon
2016-12-09 22:46:52 652
原创 python爬取链家数据
V1版import sys reload(sys) sys.setdefaultencoding("utf-8") #设定编码要放在最上面。之前放在引用库的最下面,然后加到pandas的DataFrame老是出现中文字符为问号的乱码import pandas as pd import urllib2 import urllib import timeimport refr
2016-12-07 00:31:06 1221
原创 python 爬取糗事百科
step 1:构建一个提取糗事百科笑话的函数import urllib2 import urllib import re import thread import time import sys reload(sys) sys.setdefaultencoding("utf-8") def GetPage(page): myUrl =
2016-12-05 23:50:54 612
原创 正则表达式
re模块re.compileimport sysreload(sys)sys.setdefaultencoding('utf-8')import re b = re.compile(r"\d+\.\d*") match21 = b.match('3.1415') match22 = b.match('33') if match21: # 使用Match获得分组信息
2016-12-05 00:10:32 282
原创 python爬虫
# -*- coding: utf-8 -*-#--------------------------------------- #爬取百度贴吧关于sandy的资料#操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。 #功能:下载对应页码内的所有页面并存储为html文件#--------------------------------------- import s
2016-12-04 18:21:26 405
转载 欢迎使用CSDN-markdown编辑器
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
2016-11-27 09:43:36 243
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人