自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

彭世瑜的博客

记录我的code历程 个人主页:www.pengshiyu.com

原创 Python爬虫:requests多进程爬取猫眼电影榜单

思路: 抓取单页 -> 解析信息 -> 保存文件 -> 多线程循环 TOP100榜单地址:http://maoyan.com/board/4 代码实现 # 爬取猫眼电影榜单 import time import json import reque...

2018-04-30 23:14:09 810 0

原创 Python爬虫:selenium模块基本使用

参考文档: Selenium with Python英文文档 Selenium with Python中文翻译文档 from selenium import webdriver from selenium.common.exceptions import TimeoutException, ...

2018-04-30 11:18:00 656 1

原创 Python爬虫:pyquery模块解析网页

官方文档:https://pythonhosted.org/pyquery/index.html CSS 选择器参考手: http://www.w3school.com.cn/cssref/css_selectors.asp pyquery可以解析网页 pyquery: a jq...

2018-04-29 20:16:33 1494 0

原创 Python爬虫:browsercookie库获取浏览器cookie

第三方库:browsercookie 可以很轻易的获取浏览器cookie,访问需要需要登录才能查看的页面 pipy主页: https://pypi.org/project/browsercookie/ 代码示例 # 获取浏览器cookie import browsercookie im...

2018-04-28 17:45:24 5864 4

原创 利用githubpage和codingpage创建个人主页

github page 创建个人主页 使用帮助:https://pages.github.com/ 我的主页:http://mouday.github.io/ 当然,我绑定了自己的域名:https://www.pengshiyu.com/ 至于域名前面的绿锁头可以参考: 给自己gi...

2018-04-28 16:37:12 656 0

原创 Python爬虫:tesseract识别图片验证码

安装tesseract mac环境下: $ brew install tesseract 测试 $ tesseract -v tesseract 3.05.01 直接使用 $ tesseract test.png output #识别test.png的图片,把结果放到output....

2018-04-28 14:31:38 578 0

原创 Python编程:re正则库基本使用

之前的文章: Python编程:re正则库 正则字符集 # 字符集 \w 匹配字母数字及下划线 \W 匹配非字母数字及下划线 \s 匹配任意空白字符,等价于[\n\t\r\f] \S 匹配任意非空字符 \d 匹配任意数字,等价于[0-9] \D 匹配任意非数字 \A 匹...

2018-04-27 23:44:27 107 0

原创 Python编程:playhouse模块转peewee的model对象为字典dict

# -*- coding: utf-8 -*- # peewee模块操作数据库 # playhouse模块不用单独装,装完peewee就有了 import peewee import random import hashlib from chinesename import chinesena...

2018-04-27 15:46:47 2121 0

原创 Python编程:从网络地址中解析出系统文件路径

# -*- coding: utf-8 -*- # 从网络地址中解析出系统文件路径 from urlparse import urlparse #py2版本, py3不一样 from os.path import basename, dirname, join url = "htt...

2018-04-26 18:10:55 403 0

原创 Python爬虫:requests库基本使用

参考requests网站:Requests: 让 HTTP 服务人类 requests 基于urlib库 pip install requests 用于http测试的网站:http://httpbin.org/ 需要导入的模块 import requests from requ...

2018-04-25 23:24:27 1092 0

原创 AttributeError: 'module' object has no attribute 'main'

pycharm 安装 flask 时候报错 pycharm版本:2017.2.3 python版本:2.7 pip版本:10.0.1 报错 Traceback (most recent call last): File "/Applications/PyCharm...

2018-04-25 10:11:01 5294 1

原创 Python爬虫:urllib内置库基本使用

可参考: Urllib库的基本使用 官方文档:https://docs.python.org/3/library/urllib.html urllib库包含以下模块 urllib.request 请求模块 urllib.error 异常处理模块 urlli...

2018-04-24 23:42:43 1856 0

原创 Python编程:python中的计时器timeit模块

from timeit import timeit from timeit import repeat # 执行1000000次x=1的时间 t1 = timeit("x=1") print("t1", t1) # x=1的执行时间,执行1次(numbe...

2018-04-24 14:40:30 1653 0

原创 给自己github绑定的域名加个绿锁头https

方法 通过 CloudFlare 给自己的域名加个 s 具体操作 首先,GitHub Pages不支持上传SSL证书。 CloudFlare 是一家CDN提供商,它提供了免费的https服务(但不是应用SSL证书)。实现模式就是 用户到CDN服务器的连接为https, 而CDN服务...

2018-04-24 11:38:38 421 0

原创 Python爬虫:爬虫基本原理

爬虫: 请求网站 并 提取数据 的 自动化程序 爬虫基本流程: 发起请求 -> 获取响应 -> 解析内容 -> 保存数据 Request 请求方式 Request Method:get post 请求url Request URL 请求头 ...

2018-04-23 23:29:06 499 0

原创 mac下启动/停止/重启mysql服务

启动MySQL服务 mysql.server start 停止MySQL服务 mysql.server stop 重启MySQL服务 mysql.server restart

2018-04-23 16:41:40 1085 0

原创 python爬虫:scrapy命令失效,直接运行爬虫

scrapy命令失效,直接运行爬虫,无论是什么命令,都直接运行单个爬虫 出现这个错误,很意外 原因是这样的: 一开始,我写了个脚本单独配置爬虫启动项: # begin.py from scrapy import cmdline cmdline.execute("scrapy c...

2018-04-23 10:53:50 1882 0

原创 python爬虫用到的工具和类库

需要安装的工具和库 开发工具 python https://www.python.org/ pycharm https://www.jetbrains.com/pycharm/ 可以直接去官网下载安装 内置基本库 urllib re >>&...

2018-04-23 00:40:58 3696 0

原创 Python爬虫:scrapy爬取斗鱼直播图片

通过斗鱼给出的api,获取json文件,解析出图片地址,可以获取直播间的图片 斗鱼api接口: http://open.douyucdn.cn/api/RoomApi/live/{num} 比如: http://open.douyucdn.cn/api/RoomApi/live/1 当...

2018-04-22 18:13:43 732 0

原创 Python爬虫:scrapy爬取腾讯社招职位信息

爬取腾讯社招职位信息地址 https://hr.tencent.com/position.php 三个文件代码如下: spdier.py # -*- coding: utf-8 -*- # author : pengshiyu # date : 2-18-4-19 import s...

2018-04-22 18:06:42 223 0

原创 Python爬虫:处理html实体编码

Python处理HTML实体编码 方式一: import HTMLParser char = r"〹" http_parser = HTMLParser.HTMLParser(); uChar = http...

2018-04-20 11:49:29 2165 1

原创 python爬虫:scrapy爬取传智播客教师信息

推荐一个Chrome浏览器的xpath解析工具: xPath helper 轻松获取HTML元素的xPath 打开/关闭控制台:Ctrl-Shift键-X 参考:介绍一款chrome爬虫网页解析工具-XPath Helper scrapy基本介绍 # 创建工程 scrapy ...

2018-04-19 00:15:44 567 2

原创 mangodb的使用入门

安装 参考:http://www.runoob.com/mongodb/mongodb-tutorial.html 启动服务 mongod 报错: exception in initAndListen: IllegalOperation: Attempted to crea...

2018-04-18 22:57:16 1426 0

原创 Mysql查找删除重复行

测试准备 -- 准备测试数据库和数据表,并写入初始数据 mysql> create database demo; mysql> use demo; mysql> create table mytable (id int not null prima...

2018-04-14 09:39:35 140 0

原创 Python爬虫selenium模块

安装 pip install selenium 官方文档:https://www.seleniumhq.org/docs/ 测试页面 http://www.pythonscraping.com/pages/javascript/ajaxDemo.html 报错:warnings.war...

2018-04-13 13:59:46 175 0

原创 mac下安装selenium+phantomjs+chromedriver

selenium安装 pip install selenium phantomjs安装 phantomjs下载: 地址:http://phantomjs.org/download.html 将 phantomjs bin 文件路径加入环境变量: vim ~/.bash_profi...

2018-04-13 11:37:56 521 0

原创 Python通过docx模块读写微软docx文件

读取docx文件 方式一: 读取流程: 二进制对象 - 》 解压 ——》读取xml文件 # -*- encoding: utf-8 -*- from zipfile import ZipFile from urllib import urlopen from io import B...

2018-04-13 09:44:27 1968 0

原创 Python爬虫入门BeautifulSoup模块

BeautifulSoup BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串, 然后将其进行格式化,之后遍可以使用他提供的方法进行快速查找指定元素, 从而使得在HTML或XML中查找指定元素变得简单。 安装: pip install BeautifulSou...

2018-04-12 23:53:39 659 0

原创 python通过pdfminer或pdfminer3k读取pdf文件

python3 pip install pdfminer3k # -*- encoding: utf-8 -*- try: from urllib.request import urlopen except: from urllib import urlopen from...

2018-04-12 18:48:22 4724 7

原创 python读取写入csv文件

csv文件 读取保存操作 官方文档:https://docs.python.org/3/library/csv.html 写入 # -*- encoding: utf-8 -*- import csv from io import StringIO from urllib import...

2018-04-12 18:07:08 426 0

原创 python爬虫入门requests模块

Requests Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求, 但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。 它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。 Requests 是使用 Apache2 ...

2018-04-12 00:06:49 2083 0

原创 python通过163邮箱发送email邮件

发送邮件代码 # !/usr/bin/python # -*- coding: UTF-8 -*- import smtplib from email.mime.text import MIMEText from email.header import He...

2018-04-11 14:55:23 1027 0

原创 Python网络数据采集读书笔记-1

第一部分 创建爬虫 第一章 初见网络爬虫 1.1 网络连接 # py3 urllib from urllib.request import urlopen url = "http://www.baidu.com" html = urlopen(url) pr...

2018-04-11 14:39:24 92 0

原创 please verify at least one address before registering a new project on PyPI.

今天新封装了一个改变pycharm控制台颜色的pypi包:consolecolor 一路过坑,最后成功上传 https://pypi.python.org/pypi/consolecolor/0.0.1 问题的发生与解决 第一次尝试 按照我之前的套路,一步一步来: 原文:P...

2018-04-10 01:00:45 350 0

原创 python2.7传数据到数据库OperationalError: (1366, "Incorrect string value")

python2.7传数据到数据库,报错: raise errorclass, errorvalue OperationalError: (1366, "Incorrect string value: '\\xE5\\x8F\\xAF\\xE5\\x8F\\xAF......

2018-04-09 15:23:44 1651 0

原创 peewee模块基本使用-ORM

github: https://github.com/coleifer/peewee 官方文档:http://docs.peewee-orm.com/en/latest/index.html# Defining models is similar to Django or SQLAlch...

2018-04-08 22:05:34 740 0

原创 Restful API设计指南

RESTful架构,就是目前最流行的一种互联网软件架构 REST: Representational State Transfer “表现层状态转化” 如果一个架构符合REST原则,就称它为RESTful架构 URI(统一资源定位符) HTTP动词 常用的HTTP动词有下面五个(括号...

2018-04-08 09:37:59 161 0

原创 Scrapy部署之Scrapyd和Scrapyd-API

一、环境安装 安装scprayd,网址:https://github.com/scrapy/scrapyd pip install scrapyd 安装scrapyd-client,网址:https://github.com/scrapy/scrapyd-client pip insta...

2018-04-07 16:13:35 1205 0

原创 Mac常用快捷键

mac截屏 shift+command+3 mac截图 shift+command+4 mac截program shift+command+4 + space 全选文件:command+a 新建文件夹:command+shift+N 复制command+c 粘贴command+v...

2018-04-07 00:10:28 98 0

原创 sublime实用插件

Package Control 配置文件 { "bootstrapped": true, "in_process_packages": [ ], "installed...

2018-04-07 00:00:02 62 0

提示
确定要删除当前文章?
取消 删除