almost_Mr-CSDN博客

原创爬虫基础

简单爬虫import urllib2import urllibresponse=urllib.urlopen("https://www.douban.com/")print response.read()爬虫伪装浏览器-检查-network-XHR-request headers-User-Agent

2017-01-11 20:06:23 539 1

原创 excel函数

日期函数 WEEKDAY(A2,2) 返回某天为星期几，A2为日期格式 TEXT(A2,”yyyymm”) 将A2的日期形式转为文本形式

2017-01-10 21:17:57 492

原创 tableau安装

法一：Mac终端修改step1：sudo vi /etc/hostsstep2：password:step3：i,enterstep4：输入需要添加的内容step5：先按Esc 然后再按shift+：冒号step6：输入wq 保存并退出法二：文件夹修改step1：shift+command+G,调出前往文件夹step2：输入路径参考链接：下载地址 mac修改host文件

2017-01-07 23:41:23 2171

Tableau 和 ODBC ODBC 代表 Open Database Connectivity（开放式数据库连接），是允许各种软件访问数据的行业标准。ODBC 的基本前提是 SQL 查询的标准语法，软件应用程序使用该语法连接到数据库并从数据库请求数据。几乎总是由数据库制造商提供的 ODBC 驱动程序接受采用此标准语法的请求，并将请求转换为目标数据库喜欢的本机格式。ODBC 驱动程序实际上只是一

2017-01-03 23:28:02 1353

原创 postgreSQL学习资料

PostgreSQL 9.4.4 中文手册博客随笔SQL优化（四） PostgreSQL存储过程Navicat for PostgreSQL 使用教程

2017-01-02 18:49:02 792

原创爬虫框架scrapy，爬取豆瓣电影top250

1 . 新建项目进入打算存储代码的目录，命令行运行如下语句 scrapy startproject tutorial2 . 定义Itemimport scrapyclass DoubanItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() title

2016-12-31 23:09:11 8004

原创 python学习资料

python核心编程

2016-12-31 22:57:49 623

原创函数

存储过程与函数：PL/SQL块分类匿名块：不保存在数据库；无名称；不可重复调用命名块：保存在数据库中；有名称；可重复调用常见命名块：存储过程、函数、包、触发器存储过程VS函数相同：都是一个子程序，用来完成特定功能不同：存储过程：无返回值；可以独立调用函数：必须包含一个返回值；只能作为表达式的一部分使用

2016-12-23 21:56:18 714

原创环境变量的配置

postgreSQL增加环境变量- Mac OS增删环境变量1 . 首先查看shell版本 echo $SHELL #Mac OS X 10.3之后默认的是Bourne Shell2 . 针对Bourne Shell添加环境变量打开~/.bash_profile 文件 touch ~/.bash_profile open -t ~/.bash_profile 新增环境变量

2016-12-21 11:32:45 603

原创 Sublime text 2不支持raw_input输入的问题

1、command+shift+P，调出工具，输入install packages，安装SublimeREPL2、选择包含raw_input的py文件，顶部标签栏tools-sublimerepl-python-run current file3、推荐双窗口运行，便于比较 view-layout-columns:2注：未免避免报错，先将.py文件 command+s保存后，在run current

2016-12-17 18:36:11 1192

原创爬取人人贷

import sys reload(sys) sys.setdefaultencoding("utf-8") import urllib2 import urllib import re import pandas as pdimport numpy as npimport matplotlib.pyplot as plturl='https://www.we.com/loa

2016-12-14 14:45:46 3852 1

原创文章标题

Mac 上安装和使用PostgreSQL的方法存储过程定义http://www.yiibai.com/html/postgresql/2013/080784.htmlhttp://www.postgres.cn/docs/9.4/plpgsql-statements.html

2016-12-13 20:19:34 373

原创埋点

客户端埋点 Vs. 在后端记录 Event友盟、百度统计等传统分析工具，都是在客户端嵌入 SDK 进行埋点，但是，我们强烈推荐在后端记录 Event，这是出于以下一些考虑： 1、很多行为，如下单等，他们的很多字段在前端（App 和 Web 界面）是拿不到的。甚至有些行为，如用户线下消费等，前端根本就没有提供相应的功能，就更拿不到对应的数据。 2、后端修改程序更加方便便捷，如果是在 App 端记录数

2016-12-10 23:18:41 1253

原创 python爬取百度贴吧

import sysreload(sys)sys.setdefaultencoding('utf-8')import urllib2 import re#----------- 处理页面上的各种标签 ----------- class HTML_Tool: # 用非贪婪模式匹配 \t 或者 \n 或者空格或者超链接或者图片 BgnCharToNon

2016-12-09 22:46:52 762

原创 python爬取链家数据

V1版import sys reload(sys) sys.setdefaultencoding("utf-8") #设定编码要放在最上面。之前放在引用库的最下面，然后加到pandas的DataFrame老是出现中文字符为问号的乱码import pandas as pd import urllib2 import urllib import timeimport refr

2016-12-07 00:31:06 1346

原创 python 爬取糗事百科

step 1：构建一个提取糗事百科笑话的函数import urllib2 import urllib import re import thread import time import sys reload(sys) sys.setdefaultencoding("utf-8") def GetPage(page): myUrl =

2016-12-05 23:50:54 708

原创正则表达式

re模块re.compileimport sysreload(sys)sys.setdefaultencoding('utf-8')import re b = re.compile(r"\d+\.\d*") match21 = b.match('3.1415') match22 = b.match('33') if match21: # 使用Match获得分组信息

2016-12-05 00:10:32 356

原创 python爬虫

# -*- coding: utf-8 -*-#--------------------------------------- #爬取百度贴吧关于sandy的资料#操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数。 #功能：下载对应页码内的所有页面并存储为html文件#--------------------------------------- import s

2016-12-04 18:21:26 482

原创协程

协程、yield用法

2016-12-01 20:28:26 389

原创 python收发邮件

python发邮件

2016-11-27 11:15:17 1292

转载欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2016-11-27 09:43:36 289

almost_Mr的博客