自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 电商爬虫的三种方式

​ 最近几天用爬虫采集京东的数据,写了一些小例子。1、requests_jd地址:https://github.com/github-user-zj/JdSpider主要应用技术:requests采集,lxml 解析, pandas 简单分析。2、selenium_jd地址:https://github.com/github-user-zj/JdSpider主要应用技术seleniu...

2020-04-07 08:45:14 2448

原创 爬虫进阶的那些事儿

1、困难​ 下载—>解析—>储存,一般是理想状态,爬虫面对的不确定因素是目标网站的稳定性,传统web开发不稳定因素主要是客户。当两者结合,要面对的不稳定因素将大大增加。​ 之前开发的项目就是两者的结合,业务流程是这样的,客户授权登录—>爬虫登录—>目标网站。难点再哪,目标网站需要登录验证,二次短信验证,所以都是实时交互爬取的。所以要考虑用户密码、账号、验证码、误点等...

2020-04-06 16:21:56 199

原创 爬虫的那些事儿

一、爬虫1、爬虫分几步骤下载网页解析网页存储2、常用的下载网页的技术通常来说,下载网页是其中最难的步骤了。requestspython 的第三方开源包,应该是爬虫的第一首选。HttpClientjava 爬虫的常用方法selenium + chrome相当于启动了一个真实的浏览器,运行效率最低,但是伪装最好的。3、常用的解析技术xpa...

2020-04-04 21:02:37 165

原创 python+selenium+chrome driver 环境配置

1、python环境安装anaconda,自动配置环境变量已经需要的用的模块2、安装seleniumconda install selenium3、配置Chrome驱动​ 3.1、首先去本机安装的Chrome版本​ 然后根据版本进行驱动匹配。​ http://chromedriver.storage.googleapis.com/index.html​ 3.2、将驱动放到Sc...

2020-04-03 11:06:05 418

原创 JUC笔记

文章目录1、买票2、线程8锁3、生产者消费者防止虚假唤醒4、新版生产者消费者写法5、线程安全的集合6、第三种获得线程的方式7、CountDownLatch 门闩8、CyclicBarrier 加法8、Semaphore,信号灯9、ReadWriteLock,读写锁10、BlockingQueue10.1、阻塞队列10.2、阻塞队列比较11、线程池 ThreadPool12、四大函数式接口13、Fo...

2020-04-02 06:46:45 162

原创 mysql隔离级别

参考文章:https://juejin.im/entry/5b835dfbf265da43531d05931、mysql四种隔离级别​ 简记: 提、重、串读未提交读提交可重复读可串行化2、问题脏读、不可重复读(更新)、幻读(插入)。不可重复读和幻读的区别不可重复读,锁行,update和delete操作幻读,锁表,重点在insert。2.1、脏读指一...

2020-03-28 08:31:45 75

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除