彭世瑜的博客

记录我的code历程 个人主页:www.pengshiyu.com

Python爬虫:requests多进程爬取猫眼电影榜单

思路: 抓取单页 -> 解析信息 -> 保存文件 -> 多线程循环 TOP100榜单地址:http://maoyan.com/board/4 代码实现 # 爬取猫眼电影榜单 import time import json ...

2018-04-30 23:14:09

阅读数:92

评论数:0

Python爬虫:selenium模块基本使用

参考文档: Selenium with Python英文文档 Selenium with Python中文翻译文档 from selenium import webdriver from selenium.common.exceptions import TimeoutException, ...

2018-04-30 11:18:00

阅读数:213

评论数:2

Python爬虫:pyquery模块解析网页

官方文档:https://pythonhosted.org/pyquery/index.html CSS 选择器参考手: http://www.w3school.com.cn/cssref/css_selectors.asp pyquery可以解析网页 pyquery: a jq...

2018-04-29 20:16:33

阅读数:196

评论数:0

Python爬虫:browsercookie库获取浏览器cookie

第三方库:browsercookie 可以很轻易的获取浏览器cookie,访问需要需要登录才能查看的页面 pipy主页: https://pypi.org/project/browsercookie/ 代码示例 # 获取浏览器cookie import browsercookie im...

2018-04-28 17:45:24

阅读数:1399

评论数:0

利用githubpage和codingpage创建个人主页

github page 创建个人主页 使用帮助:https://pages.github.com/ 我的主页:http://mouday.github.io/ 当然,我绑定了自己的域名:https://www.pengshiyu.com/ 至于域名前面的绿锁头可以参考: 给自己gi...

2018-04-28 16:37:12

阅读数:185

评论数:0

Python爬虫:tesseract识别图片验证码

安装tesseract mac环境下: $ brew install tesseract 测试 $ tesseract -v tesseract 3.05.01 直接使用 $ tesseract test.png output #识别test.png的图片,把结果放到output....

2018-04-28 14:31:38

阅读数:71

评论数:0

Python编程:re正则库基本使用

之前的文章: Python编程:re正则库 正则字符集 # 字符集 \w 匹配字母数字及下划线 \W 匹配非字母数字及下划线 \s 匹配任意空白字符,等价于[\n\t\r\f] \S 匹配任意非空字符 \d 匹配任意数字,等价于[0-9] \D 匹配任意非数字 \A 匹...

2018-04-27 23:44:27

阅读数:31

评论数:0

Python编程:playhouse模块转peewee的model对象为字典dict

# -*- coding: utf-8 -*- # peewee模块操作数据库 # playhouse模块不用单独装,装完peewee就有了 import peewee import random import hashlib from chinesename import chinesena...

2018-04-27 15:46:47

阅读数:213

评论数:0

Python编程:从网络地址中解析出系统文件路径

# -*- coding: utf-8 -*- # 从网络地址中解析出系统文件路径 from urlparse import urlparse #py2版本, py3不一样 from os.path import basename, dirname, join url = &quot...

2018-04-26 18:10:55

阅读数:52

评论数:0

Python爬虫:requests库基本使用

参考requests网站:Requests: 让 HTTP 服务人类 requests 基于urlib库 pip install requests 用于http测试的网站:http://httpbin.org/ 需要导入的模块 import requests from requ...

2018-04-25 23:24:27

阅读数:139

评论数:0

AttributeError: 'module' object has no attribute 'main'

pycharm 安装 flask 时候报错 pycharm版本:2017.2.3 python版本:2.7 pip版本:10.0.1 报错 Traceback (most recent call last): File "/Applications/PyC...

2018-04-25 10:11:01

阅读数:2610

评论数:0

Python爬虫:urllib内置库基本使用

可参考: Urllib库的基本使用 官方文档:https://docs.python.org/3/library/urllib.html urllib库包含以下模块 urllib.request 请求模块 urllib.error 异常处理模块 urlli...

2018-04-24 23:42:43

阅读数:546

评论数:0

Python编程:python中的计时器timeit模块

from timeit import timeit from timeit import repeat # 执行1000000次x=1的时间 t1 = timeit("x=1") print("t1", t1) # x=1...

2018-04-24 14:40:30

阅读数:79

评论数:0

给自己github绑定的域名加个绿锁头https

方法 通过 CloudFlare 给自己的域名加个 s 具体操作 首先,GitHub Pages不支持上传SSL证书。 CloudFlare 是一家CDN提供商,它提供了免费的https服务(但不是应用SSL证书)。实现模式就是 用户到CDN服务器的连接为https, 而CDN服务...

2018-04-24 11:38:38

阅读数:94

评论数:0

Python爬虫:爬虫基本原理

爬虫: 请求网站 并 提取数据 的 自动化程序 爬虫基本流程: 发起请求 -> 获取响应 -> 解析内容 -> 保存数据 Request 请求方式 Request Method:get post 请求url Requ...

2018-04-23 23:29:06

阅读数:173

评论数:0

mac下启动/停止/重启mysql服务

启动MySQL服务 mysql.server start 停止MySQL服务 mysql.server stop 重启MySQL服务 mysql.server restart

2018-04-23 16:41:40

阅读数:247

评论数:0

python爬虫:scrapy命令失效,直接运行爬虫

scrapy命令失效,直接运行爬虫,无论是什么命令,都直接运行单个爬虫 出现这个错误,很意外 原因是这样的: 一开始,我写了个脚本单独配置爬虫启动项: # begin.py from scrapy import cmdline cmdline.execute("scra...

2018-04-23 10:53:50

阅读数:543

评论数:0

python爬虫用到的工具和类库

需要安装的工具和库 开发工具 python https://www.python.org/ pycharm https://www.jetbrains.com/pycharm/ 可以直接去官网下载安装 内置基本库 urllib re >&...

2018-04-23 00:40:58

阅读数:988

评论数:0

Python爬虫:scrapy爬取斗鱼直播图片

通过斗鱼给出的api,获取json文件,解析出图片地址,可以获取直播间的图片 斗鱼api接口: http://open.douyucdn.cn/api/RoomApi/live/{num} 比如: http://open.douyucdn.cn/api/RoomApi/live/1 当...

2018-04-22 18:13:43

阅读数:204

评论数:0

Python爬虫:scrapy爬取腾讯社招职位信息

爬取腾讯社招职位信息地址 https://hr.tencent.com/position.php 三个文件代码如下: spdier.py # -*- coding: utf-8 -*- # author : pengshiyu # date : 2-18-4-19 import s...

2018-04-22 18:06:42

阅读数:89

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭