自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (9)
  • 收藏
  • 关注

原创 爬虫自带抓取当日A股所有股票代码,名称,最新价,涨幅,涨价,成交量,成交额,今开盘,昨开盘,最低价,最高价

做了个爬虫自带抓取当日A股所有股票代码,名称,最新价,涨幅,涨价,成交量,成交额,今开盘,昨开盘,最低价,最高价,以供数据建模使用采用IP代理,翻页随机迟滞。本来想使用XPATH的,因为昨天装了XPATH HELPER,结果气死了,生成的XPATH路径都不对,手工校验下发现,与源码不符合,求助网络发现和标签的封闭格式有关系,所以又使用了BS4采用了自我检验失败后

2017-07-30 14:15:39 2922

原创 threading多线程试用

# -*- coding: utf-8 -*-import threadingfrom time import ctime,sleepimport timedef h(): sum=0 for j in range(200): print('hello') print('end')def b(arg): for j in rang

2017-07-29 23:22:38 201

转载 工具XPATH HELPER下载地址

http://www.baidu.com/link?url=40P8YZ5SoOJNm1mIi0dRFtPFVrz26yA5CaMe6vqmTouoxOT4lti25biPzYQo3R2rKBacWMKlfyKNv4KUBoHMFa&wd=&eqid=9647912e0003bbb000000004597c20aeCTRL+SHIFT+X打开

2017-07-29 13:47:06 4275

原创 HTTP和HTTPS 学习笔记

HTTP,超文本传输协议,HTTPS(安全超文本出书协议)则是在HTTP的基础上加了SSL层,HTTP就好比明码发报,HTTPS有了加密,有了身份认证百度不储存HTTPS的网页

2017-07-22 18:07:05 223

原创 重温算法入门经典,PYTHON冒泡排序

听说面试官喜欢排序......请原谅我写的像C语言# -*- coding: utf-8 -*-def list_d(): list = [] for i in range(0,5): print ("第%d个数字"%(i+1)) list.append(input('请输入数字')) print list return

2017-07-21 20:02:08 170

原创 爬取WAP 百度贴吧和凤凰财经的A股列表

这两个爬虫都是三个月前刚开始接触PYTHON时仿照GITHUB案例写的,写的比较乱,也没有IP代理和停机TIME SLEEP,第一个用到了XPATH,后面一个用了正则表达式。到现在我依然记得第一次成功按自己的正则匹配到数据的兴奋。至于保存数据,前者是保存到了TXT文档,后者存到了数据库MYSQL的各列。现在爬过那么网站后,我会选择REQUESTS 包和BEAUTIFUL SOUP4包,这两个方法是...

2017-07-14 20:36:23 391

原创 使用BS4爬取智联招聘

代码使用了try,except来排除异常随机选取代理IP+sleep15秒,模拟人类点击,以避开反爬虫机制# coding=utf-8from bs4 import BeautifulSoupimport requestsimport timeimport randomimport sysimport pandasimport MySQLdbdef getpage

2017-07-12 21:06:23 14632

原创 BS4模块爬取第一财经练手

采用requests包和beautiful soup注意requests get请求得到的html要encode为‘UTF-8’得到的数据结果为新闻标题+url# coding=utf-8from bs4 import BeautifulSoupimport requestsimport timeh1={ 'User-Agent':'Mozilla/5.0 (W

2017-07-10 20:30:09 615

转载 bs4简单示例

bs4(beautiful soup 4)简单抓取示例importurllib.requestfrombs4 importBeautifulSoupimportsys url='https://blog.tanteng.me'html=urllib.request.urlopen(url).read()

2017-07-10 20:15:54 565

原创 代理IP,爬微信公众号的网页

先通过西刺制作IP代理池,然后伪造USERAGENT 为安卓机或者苹果机,通过筛选出的可用IP,登陆目标网页,本意是通过电脑抓包投票的POST 的data和PARA来构造相应项。但狗腾讯对PC端的限制,PC端只能浏览网页不能投票,不能抓取到POST传递信息,本爬虫就只能做到构建代理池,通过代理池和安卓或苹果的useragent访问网站,若有需要可爬取内容,但无法模拟手机投票

2017-07-04 21:32:16 854

原创 对无验证码的问卷星问卷自动填充

目标为问卷星网站的某问卷,问卷星网站有同类网站最鸡贼的反爬机制频繁访问劝退(短时间同IP22次以上提交)、校验码以及验证码的采用都会阻止爬虫。事实上,在github上找不到可行的爬虫# coding=utf-8import urllib2import randomimport requestsfrom time import time, strftime, localtimea1={...

2017-07-03 18:57:15 8014 1

RaiDriveSetup 2023.9.0 X86

Make Cloud Storage, NAS as a drive in File Explorer

2023-09-05

unity插件 Playmaker-v1.9.0

unity插件

2023-01-22

RPGMAKER 主动战斗(即时战斗)插件 ALAPHA ABS MV

战斗系统机制(以下简称ABS)的主要思想借鉴了游戏《魔兽世界》。要执行战斗行动,您必须有一个目标。但也不支持目标技能。每一个战斗动作(物品、法术、武器攻击)都是使用特殊技能(ABS技能)来实现的。

2022-05-07

通过爬虫得到的全英雄介绍和技能介绍

通过爬虫得到的全英雄介绍和技能介绍

2021-10-15

新浪体育足球文字解说182场比赛.zip

新浪体育足球文字解说182场比赛.zip

2021-07-26

字体文件 fonts cjk字体 开源授权的,支持中文韩文日语英语

字体文件 fonts cjk字体 开源的,支持中文韩文日语英语

2020-03-27

安卓trogan客户端 igniter.apk

安卓trogan客户端 igniter.apk

2020-03-13

国家级高新技术企业、科创企业名录.xlsx

高新技术企业名录 4 深圳市超准视觉科技有限公司 国家级高新技术企业 2019年第三批 / / 5 深圳市瑞源精密工业有限公司 国家级高新技术企业 2019年第三批 / / 6 深圳市嘉信装饰设计工程有限公司 国家级高新技术企业 2019年第三批 / / 7 深圳市中幼国际教育科技有限公司 国家级高新技术企业 2019年第三批 / / 8 深圳市安和威电力科技股份有限公司 国家级高新技术企业 2019年第三批 / / 9 深圳市软讯信息技术有限公司 国家级高新技术企业 2019年第三批 / / 10 深圳市芯思杰联邦国际科技发展有限公司 国家级高新技术企业 2019年第三批 / /

2020-03-03

UCI_Credit_Card.csv数据集信息 此数据集包含有关2005年4月至2005年9月台湾地区信用卡客户的默认付款

SAS 信用卡 UCI数据 数据集信息 此数据集包含有关2005年4月至2005年9月台湾地区信用卡客户的默认付款,人口统计因素,信用数据,付款历史和账单的信息。 内容 有25个变量: ID:每个客户的ID LIMIT_BAL:以新台币计的给定信用额度(包括个人和家庭/辅助信用额) 性别:性别(1 =男性,2 =女性) 教育程度:(1 =研究生院,2 =大学,3 =高中,4 =其他,5 =未知,6 =未知) 婚姻:婚姻状况(1 =已婚,2 =单,3 =其他) 年龄:岁 PAY_0:2005年9月的还款状态(-1 =正常付款,1 =延迟一个月的付款,2 =延迟两个月的付款,... 8 =延迟八个月的付款,9 =延迟九个月的付款,以及以上) PAY_2:2005年8月的还款状态(与上述相同) PAY_3:2005年7月的还款状态(与上述相同) PAY_4:2005年6月的还款状态(与上述金额相同) PAY_5:2005年5月的还款状态(与上述相同) PAY_6:2005年4月的还款状态(与上述相同) BILL_AMT1:2005年9月的帐单金额(新台币) BILL_AMT2:2005年

2019-11-18

工程师简历模板,程序员简历,产品经理简历

好看的开发工程师简历模板,程序员简历,产品经理简历,项目经理简历,测试工程师简历,策划简历,游戏设计简历,数据挖掘工程师简历

2019-11-09

Python+淘宝网商品数据分析+原代码.txt

标题:Python 爬取淘宝商品数据挖掘分析实战 项目内容: 本案例选择>> 商品类目:沙发; 筛选条件:天猫、销量从高到低、价格500元以上; 数量:共100页 4400个商品。 分析目的: 1. 对商品标题进行文本分析 词云可视化 2. 不同关键词word对应的sales的统计分析 3. 商品的价格分布情况分析 4. 商品的销量分布情况分析 5. 不同价格区间的商品的平均销量分布 6. 商品价格对销量的影响分析 7. 商品价格对销售额的影响分析 8. 不同省份或城市的商品数量分布 9. 不同省份的商品平均销量分布 注:本项目仅以以上几项分析为例。 项目步骤: 1. 数据采集:Python爬取淘宝网商品数据 2. 对数据进行清洗和处理 3. 文本分析:jieba分词、wordcloud可视化 4. 数据柱形图可视化 barh 5. 数据直方图可视化 hist 6. 数据散点图可视化 scatter 7. 数据回归分析可视化 regplot

2019-10-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除