Python
ImproveJin
大龄失业程序员
展开
-
Python基本类型
Python是一门动态语言,解释执行,所有错误都是运行时产生的,即使有错误和异常,只要没有被执行到也不会有错,比如调用不存在的方法;类型是隐式的,也即无需变量类型声明;类型是动态,运行时根据变量指向的内容来决定类型,但是Python是强类型语言,即每个变量都是有类型的。 Python 基本built-in类型主要有numerics,sequences, mapping, fi原创 2014-09-12 13:31:05 · 6296 阅读 · 0 评论 -
hyspider之电影爬取
hymp的主要功能是电影票多渠道比价,比价时需定位到同一影院同一电影,因此需要将所有渠道电影、影院爬取并匹配起来,爬取时优先选择便于爬取的终端平台,一般信息h5/web平台相对于app更易获取。hyspider源码地址:https://github.com/improvejin/hyspider电影有豆瓣、猫眼、淘票票、糯米四个渠道,电影变化较慢,数量少,全国各地电影信息也一样,并且各个终端电...原创 2019-01-07 16:07:30 · 625 阅读 · 0 评论 -
hyspider之城市爬取
影院信息在各渠道都是按城市分类,通过城市id分页查询,因此在抓取影院前先抓取城市信息,城市信息基本不变,只需抓取一次即可。猫眼没有从猫眼找到直接获取城市列表的API, 所以基于selenium模拟chrome访问猫眼首页,获取首页html源码,然后从html中提取所有城市。city_mt源码:https://github.com/improvejin/hyspider/tree/master...原创 2019-01-09 14:34:51 · 254 阅读 · 0 评论 -
hyspider之价格爬取
价格是比价中最重要地信息,价格信息量大,并且是不断变化的,尽可能准确快速地抓取各个渠道电影及优惠信息是比价软件的核心竞争力。爬取时分城市爬取,先从DB中加载城市cinema,然后通过cinema_id直接获取影院所有价格信息,过程类似我们平时直接进入影院查看价格的行为。猫眼猫眼价格h5页面需借助selenium模拟chrome进行爬取,爬取速度比价慢。观察发现web端价格信息与h5/app价...原创 2019-01-09 18:25:50 · 283 阅读 · 0 评论 -
hyspider之影院爬取
城市信息抓取完成后,就可以基于city_id抓取影院信息了。由于影院信息变化相当缓慢,并且可以选择性的抓取某些城市,因此将city_id作为参数传递给影院爬虫,爬取影院详细地址后利用baidu map提供的地址解析api获取影院的经纬度信息,便于hyserver对影院排序。猫眼通过API返回json结构化数据可直接获取某个城市所有影院信息,启动爬虫时传递city_id作为参数:crawl ci...原创 2019-01-09 16:22:07 · 738 阅读 · 0 评论 -
numpy-study
quickstartArray Exampleimport numpy as npa=np.arange(15).reshape(3,5)aarray([[ 0, 1, 2, 3, 4], [ 5, 6, 7, 8, 9], [10, 11, 12, 13, 14]])print(a.shape)print(a.ndim)print(...原创 2019-03-09 11:49:34 · 128 阅读 · 0 评论 -
pandas-study
quickstartpandas is for statistic and analysisObject Creationimport numpy as npimport pandas as pds=pd.Series([1,3,5,np.nan,6,8])s0 1.01 3.02 5.03 NaN4 6.05 8.0dtype: ...原创 2019-03-09 12:02:59 · 344 阅读 · 0 评论 -
jupyter-study
print("hello world")hello world%connect_info{ "shell_port": 62708, "iopub_port": 62709, "stdin_port": 62710, "control_port": 62711, "hb_port": 62712, "ip": "127.0.原创 2019-03-09 13:01:06 · 221 阅读 · 0 评论 -
matplotlib-study
Usage Guidepythonimport matplotlib.pyplot as pltimport numpy as npfig = plt.figure()fig.suptitle("No axes")fig, ax_lst = plt.subplots(2, 2)<Figure size 432x288 with 0 Axes>x = np....原创 2019-03-09 13:24:02 · 345 阅读 · 1 评论 -
homework-0219
问题1.安装Anaconda。print("Hello Anacond!")Hello Anacond!问题2.使用Jupyter Python3编写Hello world程序。print("hello world")hello world问题3.导入Numpy ,使用Numpy生成一个5*2的二维数组。import numpy as npa=np.arange(10).r...原创 2019-03-09 13:28:27 · 212 阅读 · 0 评论 -
hyspider之智能运维监控
scrapyd借助scrapyd,可以通过http请求远程调度爬虫。#scrapy.cfg中加入deploy配置[deploy]url = http://localhost:6800/project = hyspiderversion = 1.0#scrapyd安装pip install scrapyd#启动scrapyd,scrapyd-deploy上传的文件存放到~cd ...原创 2019-01-11 10:04:57 · 215 阅读 · 0 评论 -
hyspider之猫眼价格解密
猫眼价格信息使用了woff字体,每次请求都会返回解析当前页面字体使用的woff文件,并且每次响应中woff文件都不同。web平台返回woff文件地址:@font-face { font-family: stonefont; src: url('//vfile.meituan.net/colorstone/b63689f6e4c98b8a05a78c87e6f251f23168.eot'...原创 2019-01-10 17:32:57 · 863 阅读 · 0 评论 -
hyserver惠电影后台
hyserver为hymp提供后台服务,使用Django开发,分成三个app(hyserver/cinema/movie)django-admin startproject hyserver # 生成项目python manage.py runserver 0.0.0.0:8000 # 访问项目主页hymp主要提供三个tab:电影列表及详情: 主要通过豆瓣api获取电影信息,由...原创 2019-01-04 17:56:56 · 645 阅读 · 0 评论 -
为什么学习Python及Python环境安装
大部分人在工作中可能是以c/c++、java之类的语言为主,这也可能是我们接触的第一个开发语言,这类语言一般有丰富地类库、高效地执行速率、灵活地组合控制,需要经过编译在执行,适用于大型的项目工程;如果在linux下开发,不可避免的也需要学习shell,shell适合系统级别如文件、进程之类的操作控制,而且快速编写,立马执行就能看到效果,完成一些系统上自动化操作也是比较合适的,shell是一种高级别原创 2014-08-31 17:21:58 · 1194 阅读 · 0 评论 -
Python 序列
Python中sequence主要包含存储单个元素序列和两个元素对的序列,str就是一个字符容器。单元素序列主要有以下类型: bytearray: 字节数组,通过built-in 函数bytearray()创建xrange:由函数xrange(n)/xrange(start, stop, step)创建,但不支持容器上的切片,连接,复制, in/not in 判断,mi原创 2014-09-25 19:56:48 · 1243 阅读 · 0 评论 -
Python基本语法
注释:#开头的行是注释,三个单引号在文件/函数/类开头就是文档注释 顺序:以缩进indent表示语句块,同一缩进级别为同一级别语句块,0级缩进在文件加载时就会被执行,冒号:开启新的缩进;一行多个语句可用逗号,分隔 选择:if:…elif:…elif:…else: 循环:for .. in ..: 用于迭代sequence 多用于loop的range()返回一个list, range(end)原创 2016-09-17 12:49:18 · 279 阅读 · 0 评论 -
Python Module/Excepion
a file containing Python definitions and statements,文件名是module_name.py, module的作用是便于代码的维护和共享,在module内部可以用name来引用module名原创 2016-09-17 19:31:45 · 513 阅读 · 0 评论 -
Python Class
class and class instance 类:类名遵循CamelCase,所有成员都是public,所有成员函数都是虚函数,函数中显示指定第一个参数是对象自身,调用时则隐式引用对象获取class元信息: obj.__dict__ instance.__class__ = type(instance)class.__bases__clas原创 2016-11-12 17:49:46 · 612 阅读 · 0 评论 -
scrapy介绍
scrapy介绍scrapy安装pip install scrapyyum install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-devscrapy dataflow scrapy使用downloader抓取数据,我们只需指定被抓取的url, 抓取的内容进入item pipeline,原创 2016-12-09 18:28:02 · 902 阅读 · 0 评论 -
Django入门
最近使用scrapy抓取了豆瓣电影的一些信息,为了在web ui上方便查看、搜素抓取信息,我使用了同样是python界的web框架Django,Django Admin一直被认为是Django的杀手锏,通过配置需要显示的字段、搜素策略,Django Admin就能够方便的将Model层的Entity方便的显示出来。Django初探Installpip install django==1.10 //i原创 2016-12-21 18:51:35 · 512 阅读 · 0 评论 -
我的全栈之路
什么是全栈如果一个人能够独立开发一个系统,包括前端和后台,则可以说是全栈工程师。前端主要用来做展示,涉及的技术是HTML/CSS/JS等,具体细节差异则跟各个终端有关,比如Android/IOS/小程序等都有具体特定的API和框架规范。相比后台,前台涉及的业务细节相对较少,后台则需要实现具体的业务类型,根据业务的规模、复杂度选择具体的开发语言和平台,国内一般是Java/Pyton/NodeJS等...原创 2018-11-18 15:53:36 · 2594 阅读 · 0 评论 -
hymp惠电影小程序
hymp惠电影小程序扫描体验mp核心功能分成三个Tab页:电影列表,显示正在热映和即将上映的电影影院列表,根据用户的位置由近及远显示影院列表个人中心,用户推荐、反馈入口电影列表电影列表包含头部和主体两部分,头部是目前正在热映八部电影的海报以幻灯浮图的形式循环轮播,主体则根据电影上映时间划分成正在热映和即将上映两个子Tab电影列表。热映浮图一般影视网站首页都有最近热播视频幻...原创 2018-12-10 17:50:06 · 1408 阅读 · 0 评论 -
homework-0306-最小二乘法
#问题1.实现一元线性回归#使用如下提供的数据求解x=[300,400,400,550,720,850,900,950]y=[300,350,490,500,600,610,700,660]import numpy as npx_array = np.array(x)y_array = np.array(y)x_mean = np.mean(x_array)y_mean = y...原创 2019-03-09 14:52:56 · 110 阅读 · 0 评论