爬虫
伊玛目的门徒
我们都是阴沟里的虫子,但总还是得有人仰望星空.
展开
-
爬虫英雄联盟官网的全英雄介绍和技能介绍
import reimport pandas as pdimport requests# 循环了cols=['heroId','name','alias','title','roles','shortBio','attack','defense','magic','hp','hpperlevel','mp','mpperlevel','armor','spellblock', 'attackdamage','attackdamageperlevel','pas0','pas1','q.原创 2021-10-15 17:00:55 · 853 阅读 · 0 评论 -
爬虫抓取新浪足球文字直播
# 全部代码import jiebaimport jieba.posseg as psgimport reimport pandas as pdimport requestsfrom bs4 import BeautifulSoupimport bs4id=2188200while id <=2188250: header={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/5.原创 2021-07-22 15:21:09 · 1025 阅读 · 0 评论 -
使用python爬取亚马逊商品switch到货通知、价格,并发送email通知
#!/usr/bin/env python# coding: utf-8# In[2]:import pandas as pdimport requestsfrom bs4 import BeautifulSoupflag_ex=0flag=0#邮件核心import smtplibfrom email.mime.text import MIMETextfrom email.header import Headerdef fasong(message,targetma.原创 2020-09-18 16:07:47 · 1436 阅读 · 0 评论 -
python多线程采集高新技术企业名录
#3601#coded by 伊玛目的门徒import reimport requestsimport timefrom bs4 import BeautifulSoupimport pandas as pdurllist=[]titlelist=[]list0=[]start = time.clock() # 计时-开始from concurrent.future...原创 2020-02-27 11:55:49 · 343 阅读 · 0 评论 -
代理IP 多线程 伪造表头 爬虫小框架
翻到一个两年前写的爬虫小框架# coding=utf-8import tushare as tsimport pandas as pdimport requestsimport jsonimport reimport timefrom retrying import retryfrom concurrent.futures import ThreadPoolExecutor...原创 2020-02-18 15:43:03 · 249 阅读 · 0 评论 -
python自动采集财经信息翻译成英文一并上传到wordpress网站
#coded by 伊玛目的门徒#coding=utf-8from wordpress_xmlrpc import Client, WordPressPostfrom wordpress_xmlrpc.methods.posts import GetPosts, NewPostfrom wordpress_xmlrpc.methods.users import GetUserInfoi...原创 2020-01-13 18:36:35 · 1101 阅读 · 0 评论 -
python爬虫自动采集并上传更新网站 requests wordpress_xmlrpc wordpress实战
爬虫用的 bs4+requests上传用的wordpress_xmlrpc#coded by 伊玛目的门徒#coding=utf-8from wordpress_xmlrpc import Client, WordPressPostfrom wordpress_xmlrpc.methods.posts import GetPosts, NewPostfrom wordpres...原创 2019-12-21 12:47:04 · 1602 阅读 · 0 评论 -
python多线程爬虫 和讯期货 标题和内容页的URL
#coded by 伊玛目的门徒import reimport requestsimport timefrom bs4 import BeautifulSoupurllist=[]titlelist=[]start = time.clock() # 计时-开始from concurrent.futures import ThreadPoolExecutorhea...原创 2019-12-20 22:42:19 · 394 阅读 · 0 评论 -
使用REQUESTS和BS4 爬取全国银行的联行号,物理地址,电话,swiftcode
from bs4 import BeautifulSoupimport requestsn=1url='http://www.5cm.cn/bank/'+str(n)header={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.X...原创 2019-09-10 20:18:16 · 789 阅读 · 0 评论 -
python爬取京东商品(使用cookies,header,xpath匹配),解决ajax。 后附有selenium模拟访问抓取网页方法和视频演示
###本文提供的代码只用于学习,请勿用于商业用途这次没用正则和BS4,用了XPATH,因为真的好久好久没用xpath了。唯一要主要克服的难点就是京东的ajax加载,直接requests抓网页只有前30个商品,还要用get请求访问目标url,得到后面的商品。b变量其实是UNIX时间戳。PS,真的好想买索尼的电视机,因为安卓电视+无开机广告......建议电视机运行内存大于2G,CPU配...原创 2019-03-22 19:47:10 · 4040 阅读 · 0 评论 -
多线程爬取中超全部2018赛季职业球员
本文旨在得到全部中超职业球员信息,之后可以用于数据分析(如多维度聚类球员类型)或者利用球员名列表对体育新闻分词,找出曝光度最高或者最低调的球员,亦或者用于开发体育游戏等等首先:继续爬虫球探网,该网使用局部加载,真实信息在隐藏URL ,要得到全部球员信息,首先要得到中超职业联赛全部球队的id, 原始链接:http://zq.win007.com/cn/TeamHeadPag...原创 2019-01-27 19:35:38 · 660 阅读 · 0 评论 -
python BS4 收集上港队球员赛季表现
from bs4 import BeautifulSoupimport requestsimport pandas as pdurl='http://zq.win007.com/cn/team/PlayerData/7642.html'url2='http://zq.win007.com/cn/team/PlayerDataAjax.aspx?SclassID=60&match...原创 2019-01-27 13:24:08 · 339 阅读 · 0 评论 -
selenium 加header(chrome)
from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfro...原创 2019-01-27 11:03:38 · 24127 阅读 · 2 评论 -
selenium 中 出现'list' object has no attribute 'send_keys'错误解决
原先代码:from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as...原创 2019-01-27 10:49:32 · 13756 阅读 · 3 评论 -
对上市公司公告关键词数据分析
前文已经全部爬取上市公司公告,https://blog.csdn.net/qq_37195257/article/details/85015987 # coding: utf-8#coded by 伊玛目的门徒from pylab import mplmpl.rcParams['font.sans-serif'] = ['SimHei']import jiebatxt...原创 2018-12-16 15:02:58 · 1442 阅读 · 0 评论 -
多线程爬取新浪财经上市公司要闻
利用PY3 , REQUESTS BS4 做划分THREADPOOL做多线程 import jiebaimport requestsimport timefrom bs4 import BeautifulSoupresult=[]start = time.clock() # 计时-开始from concurrent.futures import Threa...原创 2018-12-15 17:21:20 · 1724 阅读 · 0 评论 -
BS4模块爬取第一财经练手
采用requests包和beautiful soup注意requests get请求得到的html要encode为‘UTF-8’得到的数据结果为新闻标题+url# coding=utf-8from bs4 import BeautifulSoupimport requestsimport timeh1={ 'User-Agent':'Mozilla/5.0 (W原创 2017-07-10 20:30:09 · 647 阅读 · 0 评论 -
使用BS4爬取智联招聘
代码使用了try,except来排除异常随机选取代理IP+sleep15秒,模拟人类点击,以避开反爬虫机制# coding=utf-8from bs4 import BeautifulSoupimport requestsimport timeimport randomimport sysimport pandasimport MySQLdbdef getpage原创 2017-07-12 21:06:23 · 14709 阅读 · 0 评论 -
代理IP,爬微信公众号的网页
先通过西刺制作IP代理池,然后伪造USERAGENT 为安卓机或者苹果机,通过筛选出的可用IP,登陆目标网页,本意是通过电脑抓包投票的POST 的data和PARA来构造相应项。但狗腾讯对PC端的限制,PC端只能浏览网页不能投票,不能抓取到POST传递信息,本爬虫就只能做到构建代理池,通过代理池和安卓或苹果的useragent访问网站,若有需要可爬取内容,但无法模拟手机投票原创 2017-07-04 21:32:16 · 871 阅读 · 0 评论 -
爬取WAP 百度贴吧和凤凰财经的A股列表
这两个爬虫都是三个月前刚开始接触PYTHON时仿照GITHUB案例写的,写的比较乱,也没有IP代理和停机TIME SLEEP,第一个用到了XPATH,后面一个用了正则表达式。到现在我依然记得第一次成功按自己的正则匹配到数据的兴奋。至于保存数据,前者是保存到了TXT文档,后者存到了数据库MYSQL的各列。现在爬过那么网站后,我会选择REQUESTS 包和BEAUTIFUL SOUP4包,这两个方法是...原创 2017-07-14 20:36:23 · 409 阅读 · 0 评论 -
threading多线程试用
# -*- coding: utf-8 -*-import threadingfrom time import ctime,sleepimport timedef h(): sum=0 for j in range(200): print('hello') print('end')def b(arg): for j in rang原创 2017-07-29 23:22:38 · 213 阅读 · 0 评论 -
爬虫自带抓取当日A股所有股票代码,名称,最新价,涨幅,涨价,成交量,成交额,今开盘,昨开盘,最低价,最高价
做了个爬虫自带抓取当日A股所有股票代码,名称,最新价,涨幅,涨价,成交量,成交额,今开盘,昨开盘,最低价,最高价,以供数据建模使用采用IP代理,翻页随机迟滞。本来想使用XPATH的,因为昨天装了XPATH HELPER,结果气死了,生成的XPATH路径都不对,手工校验下发现,与源码不符合,求助网络发现和标签的封闭格式有关系,所以又使用了BS4采用了自我检验失败后原创 2017-07-30 14:15:39 · 2985 阅读 · 0 评论 -
工具XPATH HELPER下载地址
http://www.baidu.com/link?url=40P8YZ5SoOJNm1mIi0dRFtPFVrz26yA5CaMe6vqmTouoxOT4lti25biPzYQo3R2rKBacWMKlfyKNv4KUBoHMFa&wd=&eqid=9647912e0003bbb000000004597c20aeCTRL+SHIFT+X打开转载 2017-07-29 13:47:06 · 4373 阅读 · 0 评论 -
试用了阿里云市场的验证码识别api,真的牛批,传统4位数验证码识别率超高
有钱是真的可以为所欲为 以后阿里云的api平台的确可以占有部分市场验证码:引入base64模块,识别后,传入此api host = 'https://a************.showapi.com'path = '/checkcode'method = 'POST'appcode = '***************************'querys ...原创 2017-10-25 22:32:11 · 11180 阅读 · 5 评论 -
调用成品api构建自己的代理IP池
# coding=utf-8import tushare as tsimport pandas as pdimport requestsimport jsonimport reimport timedef get_pro(): a=requests.get('http://lab.crossincode.com/proxy/get/?num=10') a.enc...原创 2018-03-16 21:13:27 · 1987 阅读 · 0 评论 -
多线程+代理ip池 爬虫
# coding=utf-8import tushare as tsimport pandas as pdimport requestsimport jsonimport reimport timefrom retrying import retryfrom concurrent.futures import ThreadPoolExecutorimport random...原创 2018-03-17 00:08:01 · 1890 阅读 · 0 评论 -
基于某知名招聘网站的上海财务岗位数据分析(含excel可视化)
1.前言:之前博主在学习PYTHON的爬虫,正好有一个很要好的朋友向我询问上海财务岗位的招聘信息,便爬取了XX网当时上海财务岗的招聘信息。爬虫采用了PYTHON2.7。其实博主是很看好PYTHON3.4,无奈相关的包并没有全方面完美支持,网上的教程也面向的是2.7,于是乎依旧采用了2.7。题外话,PYHTON爬虫比较成熟的框架是SCRAPY,不过本文并没有采用。另需注意,下面附上的代码不包含代理,...原创 2017-06-03 14:16:26 · 1090 阅读 · 2 评论 -
BS4 select 方法取值
# -*- coding: utf-8 -*-import requestsfrom bs4 import BeautifulSouphtml=requests.get('http://vip.stock.finance.sina.com.cn/corp/view/vCB_BulletinGather.php?page='+str(1))html.encoding='gbk'pri...原创 2018-12-15 14:18:03 · 4454 阅读 · 0 评论 -
bs4简单示例
bs4(beautiful soup 4)简单抓取示例importurllib.requestfrombs4 importBeautifulSoupimportsys url='https://blog.tanteng.me'html=urllib.request.urlopen(url).read()转载 2017-07-10 20:15:54 · 576 阅读 · 0 评论