- 博客(6)
- 收藏
- 关注
原创 电商爬虫的三种方式
最近几天用爬虫采集京东的数据,写了一些小例子。1、requests_jd地址:https://github.com/github-user-zj/JdSpider主要应用技术:requests采集,lxml 解析, pandas 简单分析。2、selenium_jd地址:https://github.com/github-user-zj/JdSpider主要应用技术seleniu...
2020-04-07 08:45:14
2448
原创 爬虫进阶的那些事儿
1、困难 下载—>解析—>储存,一般是理想状态,爬虫面对的不确定因素是目标网站的稳定性,传统web开发不稳定因素主要是客户。当两者结合,要面对的不稳定因素将大大增加。 之前开发的项目就是两者的结合,业务流程是这样的,客户授权登录—>爬虫登录—>目标网站。难点再哪,目标网站需要登录验证,二次短信验证,所以都是实时交互爬取的。所以要考虑用户密码、账号、验证码、误点等...
2020-04-06 16:21:56
199
原创 爬虫的那些事儿
一、爬虫1、爬虫分几步骤下载网页解析网页存储2、常用的下载网页的技术通常来说,下载网页是其中最难的步骤了。requestspython 的第三方开源包,应该是爬虫的第一首选。HttpClientjava 爬虫的常用方法selenium + chrome相当于启动了一个真实的浏览器,运行效率最低,但是伪装最好的。3、常用的解析技术xpa...
2020-04-04 21:02:37
165
原创 python+selenium+chrome driver 环境配置
1、python环境安装anaconda,自动配置环境变量已经需要的用的模块2、安装seleniumconda install selenium3、配置Chrome驱动 3.1、首先去本机安装的Chrome版本 然后根据版本进行驱动匹配。 http://chromedriver.storage.googleapis.com/index.html 3.2、将驱动放到Sc...
2020-04-03 11:06:05
418
原创 JUC笔记
文章目录1、买票2、线程8锁3、生产者消费者防止虚假唤醒4、新版生产者消费者写法5、线程安全的集合6、第三种获得线程的方式7、CountDownLatch 门闩8、CyclicBarrier 加法8、Semaphore,信号灯9、ReadWriteLock,读写锁10、BlockingQueue10.1、阻塞队列10.2、阻塞队列比较11、线程池 ThreadPool12、四大函数式接口13、Fo...
2020-04-02 06:46:45
162
原创 mysql隔离级别
参考文章:https://juejin.im/entry/5b835dfbf265da43531d05931、mysql四种隔离级别 简记: 提、重、串读未提交读提交可重复读可串行化2、问题脏读、不可重复读(更新)、幻读(插入)。不可重复读和幻读的区别不可重复读,锁行,update和delete操作幻读,锁表,重点在insert。2.1、脏读指一...
2020-03-28 08:31:45
75
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人