Python
Tenderness4
我思故我在,如果一个人无法独立思考,即使熟习各种工具,实质只是工具的一部分,永远无法创造工具。
展开
-
Python 3.6 统计Java代码或python代码中有效代码占比
刚才突然想统计一下自己写的代码中有效代码数量,也好久没在这上面写博客了(播客搬家了),然后就有了此文。代码如下(有bug请指出):一、直接python demo.py运行二、或者 import demo demo.run("你的源码地址")#!/usr/bin/env python#coding=utf-8import os,re#代码所在目录FILE_P原创 2018-02-05 00:26:04 · 601 阅读 · 0 评论 -
Scrapy简易爬取大众点评美食
Scrapy简易爬取大众点评美食最近快过五一了,对于部分人来说可定是旅游出去吃吃喝喝咯,那就来个爬取美食的吧,主要还是半个多月没写与工作无关的代码了,快生疏了,再不写写估计又还回去了效果图 总共十四列数据,包括环境、人均消费等等接下来就得开始敲代码了,使用Scrapy+Selenium方式爬取,每次爬取先打开网页,爬取完后发送信号关闭网页,为什么用网页呢,因为笔者刚开始直接用Scrapy方式爬取,...原创 2018-04-27 23:06:15 · 2299 阅读 · 1 评论 -
Scrapy 简易爬取Boss直聘 可设定city job 爬取工作到excel或mysql中
2018-5-17一、 本篇讲述了如何编写利用Scrapy爬虫,把数据放入到MYSQL数据库中和写入到excel中,由于笔者之前爬取过拉勾网,但个人倾向与Boss直聘,所以再次爬取Boss直聘来作为知识梳理二、 Scrapy工作原理介绍,之前的总结中已经介绍过了,而且网上有data flow 流程图,这里主要说一下,Scrapy中先是将SPIDERS中的url放入调度器,通过引擎,再经过DOWN...原创 2018-05-18 01:34:33 · 1002 阅读 · 0 评论 -
利用Selenium 登录京东,抢购19.9的荣耀手环3
一、首先,19.9元抢购是京东吸引顾客的,最后反正强盗也是上百块,坑爹二、利用Selenium做抢购的话能看到物品,用post请求就需要解析页面,获取参数信息,再模拟登录,但是自己就不能实时了解物品详情吧,所以我选择了第一种,第二种也不难,F12可以知道需要哪些参数,直接解析就可以三、说说验证码吧,个人觉得简单点做,要么手动看着网页输入,要么解析出验证码路径,请求并保存图片在本地,然后自动打开图片...原创 2018-04-03 00:43:00 · 2521 阅读 · 0 评论 -
Scrapy 使用总结
2018-4-8scrapy 工作流程:engine获得spiders内url,请求调度程序,对url进行爬取,Downloader返回response给爬虫引擎,引擎返回response给spiders,然后spiders处理item,发送给管道处理,然后把结果返回给调度器,然后重复此过程 一、 首先是Scrapy普通爬虫,没有什么可讲 scrapy startpr...原创 2018-04-08 22:40:02 · 544 阅读 · 0 评论 -
Python 3.6 优雅的爬取猎聘网招聘信息
1. 通过三种方式抓取字段: 招聘标题 待遇 地区 学历要求 经验 公司名称 公司的行业 职位描述2. 效果预览 3. 注意事项 * 利用xpath或者其它方式选取节点时,需要注意判断是否为None,如果在后面调用.strip()等方法肯定会报错,所以建议提取出一个共用的判断方法 * url拼接问题,当大部分详情页链接都有schema时,突然返回你一个没...原创 2018-03-20 22:34:05 · 5012 阅读 · 5 评论 -
用Python大神Kennethreitz新框架request-html爬妹纸图遇坑记
一、不了解用法的可以去了解用法 代码传送门二、这个网站不小心点开的,感觉大家应该都会喜欢,下载图片这块要仔细,其他地方按部就搬 一般下载图片都是用 req = request.Request(url, headers=headers) f.write(request.urlopen(req).read()) headers中包含了Use-Agent或者Refer...原创 2018-03-13 01:18:06 · 1801 阅读 · 0 评论 -
Python3.6爬虫集合 xpath bs4 re 爬51job前程无忧招聘信息 豆瓣音乐等等
总结一下这两天自己写的爬虫,之前一直用框架爬虫,感觉有必要熟练最基础的没有框架爬虫才能让我更好理解框架,代码在链接内,代码中都有详细的注释1. 发送邮件,这里选择发送网页邮件,其他邮件发送可以看廖雪峰老师的教程 * 邮件协议为SMTP,端口为25 * 需要模块 email(构造邮件) smtplib(发送邮件) * 代码传送门 * 无具体注意事项2. xpath爬取豆瓣音乐...原创 2018-03-09 22:55:04 · 1313 阅读 · 0 评论 -
Python 一百多行实现抢票助手
一. 代码使用Python+Splinter开发,Splinter是一个使用Python开发的开源Web应用测试工具,它可以帮你实现自动浏览站点和与其进行交互。二. 安装好Python 3或2都可以,然后安装Splinter `pip install Splinter`三. Splinter注意事项 1. Splinter的Browser类默认优先使用firefox,所以用chr原创 2018-02-06 23:56:58 · 19621 阅读 · 15 评论 -
九大排序算法总结
九大排序算法最近总结了一下各大常见的算法,并用Java代码实现了一遍。 (平均)时间复杂度O(N^2) 冒泡排序 时间复杂度最好的情况是O(N)、最坏情况是O(N^2) 空间复杂度(1) 稳定(稳定的意思就是一个数组中相同数据在排序后位置不变) 思想: 比较相邻两个数据的大小。 public static int[] sort(int[] data) {...原创 2018-10-21 18:19:15 · 337 阅读 · 0 评论