- 博客(11)
- 资源 (9)
- 收藏
- 关注
原创 爬虫自带抓取当日A股所有股票代码,名称,最新价,涨幅,涨价,成交量,成交额,今开盘,昨开盘,最低价,最高价
做了个爬虫自带抓取当日A股所有股票代码,名称,最新价,涨幅,涨价,成交量,成交额,今开盘,昨开盘,最低价,最高价,以供数据建模使用采用IP代理,翻页随机迟滞。本来想使用XPATH的,因为昨天装了XPATH HELPER,结果气死了,生成的XPATH路径都不对,手工校验下发现,与源码不符合,求助网络发现和标签的封闭格式有关系,所以又使用了BS4采用了自我检验失败后
2017-07-30 14:15:39 2922
原创 threading多线程试用
# -*- coding: utf-8 -*-import threadingfrom time import ctime,sleepimport timedef h(): sum=0 for j in range(200): print('hello') print('end')def b(arg): for j in rang
2017-07-29 23:22:38 201
转载 工具XPATH HELPER下载地址
http://www.baidu.com/link?url=40P8YZ5SoOJNm1mIi0dRFtPFVrz26yA5CaMe6vqmTouoxOT4lti25biPzYQo3R2rKBacWMKlfyKNv4KUBoHMFa&wd=&eqid=9647912e0003bbb000000004597c20aeCTRL+SHIFT+X打开
2017-07-29 13:47:06 4275
原创 HTTP和HTTPS 学习笔记
HTTP,超文本传输协议,HTTPS(安全超文本出书协议)则是在HTTP的基础上加了SSL层,HTTP就好比明码发报,HTTPS有了加密,有了身份认证百度不储存HTTPS的网页
2017-07-22 18:07:05 223
原创 重温算法入门经典,PYTHON冒泡排序
听说面试官喜欢排序......请原谅我写的像C语言# -*- coding: utf-8 -*-def list_d(): list = [] for i in range(0,5): print ("第%d个数字"%(i+1)) list.append(input('请输入数字')) print list return
2017-07-21 20:02:08 170
原创 爬取WAP 百度贴吧和凤凰财经的A股列表
这两个爬虫都是三个月前刚开始接触PYTHON时仿照GITHUB案例写的,写的比较乱,也没有IP代理和停机TIME SLEEP,第一个用到了XPATH,后面一个用了正则表达式。到现在我依然记得第一次成功按自己的正则匹配到数据的兴奋。至于保存数据,前者是保存到了TXT文档,后者存到了数据库MYSQL的各列。现在爬过那么网站后,我会选择REQUESTS 包和BEAUTIFUL SOUP4包,这两个方法是...
2017-07-14 20:36:23 391
原创 使用BS4爬取智联招聘
代码使用了try,except来排除异常随机选取代理IP+sleep15秒,模拟人类点击,以避开反爬虫机制# coding=utf-8from bs4 import BeautifulSoupimport requestsimport timeimport randomimport sysimport pandasimport MySQLdbdef getpage
2017-07-12 21:06:23 14632
原创 BS4模块爬取第一财经练手
采用requests包和beautiful soup注意requests get请求得到的html要encode为‘UTF-8’得到的数据结果为新闻标题+url# coding=utf-8from bs4 import BeautifulSoupimport requestsimport timeh1={ 'User-Agent':'Mozilla/5.0 (W
2017-07-10 20:30:09 615
转载 bs4简单示例
bs4(beautiful soup 4)简单抓取示例importurllib.requestfrombs4 importBeautifulSoupimportsys url='https://blog.tanteng.me'html=urllib.request.urlopen(url).read()
2017-07-10 20:15:54 565
原创 代理IP,爬微信公众号的网页
先通过西刺制作IP代理池,然后伪造USERAGENT 为安卓机或者苹果机,通过筛选出的可用IP,登陆目标网页,本意是通过电脑抓包投票的POST 的data和PARA来构造相应项。但狗腾讯对PC端的限制,PC端只能浏览网页不能投票,不能抓取到POST传递信息,本爬虫就只能做到构建代理池,通过代理池和安卓或苹果的useragent访问网站,若有需要可爬取内容,但无法模拟手机投票
2017-07-04 21:32:16 854
原创 对无验证码的问卷星问卷自动填充
目标为问卷星网站的某问卷,问卷星网站有同类网站最鸡贼的反爬机制频繁访问劝退(短时间同IP22次以上提交)、校验码以及验证码的采用都会阻止爬虫。事实上,在github上找不到可行的爬虫# coding=utf-8import urllib2import randomimport requestsfrom time import time, strftime, localtimea1={...
2017-07-03 18:57:15 8014 1
RPGMAKER 主动战斗(即时战斗)插件 ALAPHA ABS MV
2022-05-07
国家级高新技术企业、科创企业名录.xlsx
2020-03-03
UCI_Credit_Card.csv数据集信息 此数据集包含有关2005年4月至2005年9月台湾地区信用卡客户的默认付款
2019-11-18
Python+淘宝网商品数据分析+原代码.txt
2019-10-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人