2019年04月_xiucai_cs

12月 10月 09月 08月 07月 06月 05月 04月 03月 02月

原创 Python爬虫选择器(一) xpath

XPath: 一门在XML文档中查找信息的语言常用规则:/ 选取当前节点的直接子节点// 选取当前节点的子孙节点. 选取当前节点… 选取当前节点的父节点@ 选取属性简单实例:from lxml import etreetext = '''<div> <ul> <li...

2019-04-28 19:56:55 706

原创爬虫微信信息推送

目标url: http://www.weather.com.cn/weather1d/101010100.shtml目标内容: 爬取今日天气相关信息和穿衣等建议并且通过微信推送给用户技术点: python requests请求库 wxpy库 lxml选择器schedule定时库 time库部署: 可以购买一个云服务器，将代码配置到服务器上，就可以实现每天定时推送消...

2019-04-27 20:43:16 1267 3

原创 'actor': item[3].strip()[3:] if len(item[3]) > 3 else '',

'actor': item[3].strip()[3:] if len(item[3]) > 3 else '',解释: 如果元祖的长度大于三才执行前面的与语句，否则返回空其中item[3]是代表元祖中，下标大于等于三的元素实例:...

2019-04-27 20:36:02 1617 1

原创 Python requests + 正则表达式猫眼电影top100 信息抓取

源代码:# 请求异常的时候报错from requests.exceptions import RequestExceptionimport requestsimport jsonimport timeimport re# 获取网页源代码def get_one_page(url): try: headers = { 'User-Ag...

2019-04-27 20:18:09 654

原创爬虫-提取信息-正则表达式

match():从字符串起始位置匹配正则表达式import recontent = 'Hello 123 4567 World_This is a Regex Demo'print(len(content))result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}', content)print(result)print(result.gro...

2019-04-24 13:59:46 364

原创爬虫基本请求库的使用(二)requests

requests的get方法:import requestsr = requests.get('https://www.baidu.com/')print(type(r))print(r.status_code)print(type(r.text))print(r.text)print(r.cookies)分别输出了Response的类型状态码响应体的类型内容以及Cook...

2019-04-21 21:14:01 623

原创 VScode 优雅编写python环境搭建

**前言:**由于pycharm的臃肿启动慢等问题，这里笔者将python的编译器换为vscode。(sublime text3功能也十分强大，使用非常方便，但鉴于sublime不开源，迟早要落伍，这里笔者将sublime换为辅助的编译器)。配置:一: 下载并安装vscode(https://code.visualstudio.com/#alt-downloads)这里windows建议...

2019-04-21 19:44:50 1565 2

原创 sublime text3 编译c语言 cmd 输出乱码问题

解决:1: 安装ConvertToUTF8插件2: 按CTRL SHIFT C 快捷键3: 截图4: 注意这种办法也有缺点，就是只能先改为GBK，再输入文字，而不能在先有文字的情况下设置GBK直接实现转换。...

2019-04-21 11:31:05 2319

原创 sublime text3 python 舒适美观编译环境

参见: https://blog.csdn.net/zxy987872674/article/details/54895349

2019-04-18 20:51:11 574

转载修复在 ST3 下 SublimeCodeIntel 对 Python 无法自动补全 import 语句里的模块名的问题

参见: https://www.v2ex.com/amp/t/170784

2019-04-18 20:49:51 584

转载 sublime package control 出现There are no packages available for installation

详情参考: https://blog.csdn.net/feilong_csdn/article/details/67638660#commentBox成果:

2019-04-17 20:14:40 269

原创 sublime text3 boxy主题 (本地压缩包安装)

更新的sublime text3已经下架boxy主题了。由于boxy主题看着很舒服，口碑普遍比较好，这里来安装一下本地的boxy主题。一: 将下面两个文件夹复制到 C:\Program Files\Sublime Text 3\Packages(sublime安装路径)二: 将这两个文件夹设置为只读四: 将Boxy Theme.sublime-package 拉到C:\Prog...

2019-04-17 19:22:30 5934

原创 sublime text3 python 代码自动补全

一: 在菜单栏中选择Preferences -> Package control 选择下图的第一个二: 输入SublimeCodeIntel(我安装过了，所以不会显示)三:输入(ps:每个人的python路径可能不同，请看自己的python地址):{ "codeintel_language_settings": { "Python3": { ...

2019-04-17 14:30:22 9051

原创爬虫基本请求库的使用(一) urllib

urllib(内置库):requests: 最基本的请求模块仅需要传入URL和额外的参数error: 异常处理模块parse: URL的工具模块robotparser: 识别网站robot.txt文件, 判断网站是否可爬urlopen():import urllib.requestresponse = urllib.request.urlopen('https://www.py...

2019-04-15 21:33:30 597

原创爬虫基本原理

爬虫概述.py爬虫概述: 获取网页提取信息(Beautiful Soup, pyquery, lxml) 保存数据: TXT JSON MySQL MongoDB 也可以保存到远程服务器上自动化程序: 爬虫代替人类手工适用: 信息量特别大获取大量数据能抓取怎样的数据: 浏览器可以访问的一般都可以获取到JS渲染页面: 对于这类页面，可以...

2019-04-13 21:00:39 246

原创 sublime text3关闭提示更新(实现永久破解)

在sublime text3中，可以先进行破解，然后关闭他的烦人的提示更新，就可以实现永久破解。方法步骤:1: 在sublime text3中，选择Preferences -> Settings2: 在代码中中添加:"update_check":false注意那个 “update_check”:false 的逗号是必须的。3: 这样就实现了自动更新的关闭sublime...

2019-04-13 15:24:12 15567 5

原创 python列表中 for循环操作

代码:print([x*x for x in range(1,11)])print([x*x for x in range(1,11) if x%2==0])print([m+n for m in 'ABC' for n in'abc'])输出:[1, 4, 9, 16, 25, 36, 49, 64, 81, 100][4, 16, 36, 64, 100]['Aa', 'A...

2019-04-12 20:52:42 4259

原创 scrapy框架对全站信息的爬取(以爬取全站天气信息为例)

思路:scrapy爬取整个网站的流程(以爬取所有省份的所有城市的所有年份的所有季度的所有月份的每一天为例)在scarpy的类中，定义一个开始的url通过第一个函数和url来获取每一个省份的所有城市的url链接，对于每一个url链接，通过yield方法和callback函数来调用第二个函数并且通过yield方法传入各个城市的url信息在第二个函数中，通过bs4或者xpath或者正则表达...

2019-04-11 20:50:16 1416

原创 python3 定时任务

python中的定时任务

2019-04-11 09:24:59 1849

原创爬虫基础-网页基础

爬虫基础-网页基础: HTML相当于骨架 JS相当于肌肉 CSS相当于皮肤 HTML: 是一种描述网页的语言，包括文字，按钮，图片和视频。不同类型的通过不同类型的标签来表示，不同布局又通过布局标签div表示 CSS: 层叠样式表，可以使页面变得更加美观 JS: HTML和CSSS配合使用提供一种静态信息 JS使得用户与信息之间出现一种实时，动态，交互的页面功能综上...

2019-04-09 16:56:31 5269

原创爬虫基础-HTTP基本原理

爬虫基础-HTTP基本原理: URI: 统一资源标志符 URL: 是URI的子集一般的网页链接既可成为URL也可称为URI 超文本: HTML源代码 HTTP和HTTPS: HTTP: 用于从网络传输超文本数据到本地浏览器的传输协议。 HTTPS: HTTP的安全版本，加入了SSL层 HTTP的请求过程: 在浏览器地址栏输入URL以后，浏览器向网站所在的服务器发...

2019-04-09 13:23:06 278

原创 Python爬虫环境搭建大全

在《Python3网络爬虫开发实战》中，第一章主要是配置爬虫的各种环境，这里来记载一下简单的安装过程Python3: 下载安装包安装(https://www.python.org/) 笔者下载的为3.6版本下载安装包以后安装即可requests(请求库): pip install requestsSelenium(自动化测试工具): pip install selenium...

2019-04-09 11:06:55 5557

原创 selenium.common.exceptions.WebDriverException: Message: 'phantomjs' executable needs to be in PATH

在使用phantomjs的过程中发生了如题目一样的报错信息，执行的为以下代码:from selenium import webdriverbrowser = webdriver.PhantomJS()browser.get('https://www.baidu.com')print(browser.current_url)解决:from selenium import webdriv...

2019-04-01 20:06:10 730

Typora主题大全，里面onedark等主题

1、打开Typora，点击文件，编号设置选择外观，打开主题文件夹 2、将下载好的压缩包中的.css文件和同名的文件夹等解压到主题文件夹中。 3、重启Typora并重新选择主题我们重新打开 typora，然后在主题中选择自己下载好的主题就行了，下面为主题效果

2021-01-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人