彭世瑜的博客

记录我的code历程 个人主页:www.pengshiyu.com

排序:
默认
按更新时间
按访问量

python编程:linux环境gunicorn+nginx部署django项目

安装包 pip install gunicorn supervisor gunicorn 确保项目中有 wsgi.py 文件 通过gunicorn启动django项目(project需要换为相应的名称) gunicorn --chdir project_dir --pythonp...

2018-08-16 16:17:22

阅读数:3

评论数:0

Python编程:DBUtils管理数据库连接池

每次执行一个sql的时候都单独建立一个mysql连接,执行完就close掉,很明显这样的问题在于,频繁连接,断开mysql,这样是相当消耗系统资源的,而且增加了mysql连接失败的几率,所以万一哪个线程没有连接成功 这个线程也over了。 连接池原理 在程序创建连接的时候,可以从一个...

2018-08-16 11:23:02

阅读数:9

评论数:0

Python计算:sympy解数学方程

解方程 solve(f, *symbols, **flags) 函数说明: f: 转化成右端等于0 形式的表达式 symbols: 未知数 代码示例 # -*- coding: utf-8 -*- # @File : sympy_demo.py # @Date : 2...

2018-08-15 17:46:37

阅读数:2

评论数:0

Python爬虫:selenium和Chrome无头浏览器抓取烯牛数据动态网页

烯牛数据地址: http://www.xiniudata.com/project/event/lib/invest 打开页面,能正常看到内容,查看源代码发现页面并没有出现我们需要的内容,说明这是异步加载的内容。 数据抓取 方式1: 采用requests或scrapy,拿不到页...

2018-08-15 10:55:09

阅读数:10

评论数:0

Linux:将程序放到后台运行

nohup python run.py & # ctrl+z #挂起到后台 # ctrl+d #或者 关闭窗口 进程任然会在后台执行 参考 Linux后台执行的方法 - 关闭、退出不影响

2018-08-14 16:31:01

阅读数:9

评论数:0

Python爬虫:scrapy利用splash爬取动态网页

依赖库: pip install scrapy-splash 配置settings.py # splash服务器地址 SPLASH_URL = 'http://localhost:8050' # 支持cache_args(可选) SPIDER_MIDDLEWARES = { 'sc...

2018-08-13 10:44:46

阅读数:10

评论数:0

Python爬虫:splash的安装与简单示例

安装splash 1、安装docker(参考:mac安装docker) 2、安装splash docker pull scrapinghub/splash # 安装 docker run -p 8050:8050 scrapinghub/splash # 运行 访问测试: http:...

2018-08-13 10:23:20

阅读数:17

评论数:0

mac和linux安装docker

方式1、brew安装(安装完后有奇怪的报错) 方式2、下载docker安装(推荐): https://www.docker.com/ 版本检查 $ docker --version Docker version 1.13.0, build 49bf474 $ docker-compose ...

2018-08-13 09:37:20

阅读数:34

评论数:0

Linux:命令行光标移动和删除整行

ctrl+a ctrl+e 分别代表把管标移动到最前和最后 ctrl+u ctrl+k 分别代表光标处往前和光标处往后删除

2018-08-11 10:05:00

阅读数:15

评论数:0

Linux:添加系统环境变量

临时添加 export PATH=$PATH:/opt/software/node-v8.9.3-linux-x64/bin/node

2018-08-11 09:57:41

阅读数:13

评论数:0

redis:(error) NOAUTH Authentication required

连接redis时,能连接,不过报错 (error) NOAUTH Authentication required 需要密码时的连接方式 redis-cli -h 127.0.0.1 -p 6379 -a password 访问正常 参考 redis客户端连接(error)...

2018-08-09 10:29:22

阅读数:7

评论数:0

Python爬虫:scrapy定时运行的脚本

原理: 1个进程 -> 多个子进程 -> scrapy进程 代码示例 将以下代码文件放入scrapy项目中任意位置即可 # -*- coding: utf-8 -*- # @File : run_spider.py # @Date ...

2018-08-08 20:02:01

阅读数:14

评论数:0

Python编程:判断字符串中是否包含中文

原理: 中文字符的编码范围是: \u4e00 - \u9fff 只要编码在此范围就可判断为中文字符 代码示例 python2下测试有效 def is_contain_chinese(check_str): ""&q...

2018-08-08 17:56:12

阅读数:24

评论数:0

Python爬虫:scrapy爬虫设置随机访问时间间隔

scrapy中有一个参数:DOWNLOAD_DELAY 或者 download_delay 可以设置下载延时,不过Spider类被初始化的时候就固定了,爬虫运行过程中没发改变,随机延时,可以降低被封ip的风险 代码示例 random_delay_middleware.py # -*- c...

2018-08-08 17:50:40

阅读数:24

评论数:0

Python爬虫:scrapy利用html5lib解析不规范的html文本

问题 当爬取表格(table) 的内容时,发现用 xpath helper 获取正常,程序却解析不到 在chrome、火狐测试都有这个情况。出现这种原因是因为浏览器会对html文本进行一定的规范化 scrapy 使用的解析器是 lxml ,下面使用lxml解析,只是函数表达不一样,xpath...

2018-08-08 14:02:55

阅读数:7

评论数:0

Python爬虫:带参url的拼接

如果连接直接这样写,看上去很直观,不过参数替换不是很方便,而且看着不舒服 https://www.mysite.com/?sortField=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&pageIndex=3&page...

2018-08-07 10:29:32

阅读数:45

评论数:0

jinja2: Can't perform this operation for unregistered loader type

代码: # -*- coding: utf-8 -*- from jinja2 import Environment, PackageLoader env = Environment(loader = PackageLoader('app', 'templates')) template...

2018-07-30 17:12:48

阅读数:17

评论数:0

mysql:insert ignore、insert和replace区别

指令 已存在 不存在 举例 insert 报错 插入 insert into names(name, age) values(“小明”, 23); insert ignore 忽略 插入 insert ignore into name...

2018-07-30 11:18:30

阅读数:14

评论数:0

Python爬虫:关于scrapy、Gerapy等爬虫相关框架和工具

框架名称 作用 地址 scrapy 爬虫框架 https://github.com/scrapy/scrapy Scrapyd 部署启动、状态监控 https://github.com/scrapy/scrapyd Scrapyd-Cli...

2018-07-27 22:20:51

阅读数:25

评论数:0

Python数据科学:Numpy库一些简单区分

x, y, z 对应的shape元组是从右往左数的,即从左往右是z, y, x 抽象座标轴顺序从左向右。指定哪个轴,就只在哪个轴向操作,其他轴不受影响。 在索引中出现冒号(:),则结果中本轴继续存在,如果只是一个数值,则本轴消失。 ndarray 的数据在内存里以一维线性存放,resha...

2018-07-27 22:02:20

阅读数:12

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭