爬虫
飞行的荷兰猪
这个作者很懒,什么都没留下…
展开
-
中英平行语料-机器翻译
网上比较容易找到的最大的中英平行语料应该是UN联合国的预料数据,语料偏公文且单一。 使用china daily上双语数据作为语料。 代码如下: 添加链接描述原创 2021-01-21 23:55:10 · 775 阅读 · 0 评论 -
python使用asyncio单进程异步监听进程间queue通信
背景 应用存在大量非持久性/高阻塞的独立过程时,阻塞对效果的影响比计算资源消耗更大。这个时候使用轻量协程(coroutine)比多线程更加安全可控,极大减少了锁、线程资源复制等隐藏问题/比使用多进程更加轻量易管理。例如:网路爬虫,每个网页的请求作为独立的高阻塞原子动作,使用协程能将大量请求异步调度 使用多进程queue对协程任务create/cancel进行动态管理时,即引发本次记录问题:如何在异步执行task时,能在event loop中异步监听消息队列,既能正常执行单进程单线程的大量协程任务调度,又能原创 2020-12-25 15:24:00 · 1854 阅读 · 1 评论 -
爬虫爬取公众号内容
*不涉及具体代码 具体步骤 获取移动端内容列表 AVD模拟器(Discarded) 经过实际尝试,算力占用过多,不予考虑。 adb USB debug adb调试 + appium server + python appium-client 控制脚本点击/滑动获取所有内容列表、发送移动端页面访问请求。 移动端流量请求劫持 调查发现,所有移动端访问公众号内容发起的流量请求跟实际内容URI均保持统一格式: [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mhRAOmnn-原创 2020-10-17 09:59:37 · 495 阅读 · 0 评论